盘点：从Nature子刊到 5 大机器人顶刊！西湖大学MiLAB最新发布的 12 篇硬核成果

2025上半年12篇精选论文汇总

西湖大学工程学院的 MiLAB（Machine Intelligence Laboratory）是国内在该领域活跃度极高的研究团队之一。
实验室由王东林副教授创立并担任负责人，作为国家科技创新 2030 重大项目的首席科学家，曾在加拿大和美国长期从事机器人智能相关研究，也是西湖大学首位全职工学院教师。

MiLAB 致力于赋予真实机器人更高的灵活性、更快的适应能力和自主学习能力，核心方法涵盖深度学习、数据驱动建模与智能决策等。自 2017 年成立以来，MiLAB 已发表高水平论文 50 余篇，涵盖 ICLR、ICML、CoRL、RA-L、ICRA、IROS 等多个机器人与 AI 领域顶级会议。

2025 年上半年，西湖大学 MiLAB 在具身智能的多个核心话题上发表了21篇硬核论文（具体数量以MiLAB网站上的为准）。覆盖 VLA 模型构建、多模态策略优化、强化学习等关键方向。

本文从中遴选出12篇代表性论文，展示了 MiLAB 在“机器人如何自主感知世界、理解任务并完成动作决策”这条路径上的持续探索。

感兴趣的读者可以自行查阅论文原文深入阅读（见文末链接），也欢迎在评论区分享你关注的实验室成果。

我们开设此账号，想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外，也想和大家一起见证它到底是泡沫还是又一场热浪？

欢迎关注【深蓝具身智能】👇

模型与感知-决策一体化

感知不仅关乎“看到什么”，更决定了“如何理解并行动”。

为了应对机器人在复杂环境中执行任务时所面临的模态差异、语言歧义和感知延迟等问题，MiLAB 团队在 2025 年上半年围绕视觉语言行动（VLA）模型展开了一系列创新研究。相关工作致力于提升多模态模型的实时性、泛化能力与鲁棒性，构建更高效、更稳定的机器人感知理解基础。

【ICRA】QUART-Online: Latency-Free Large Multimodal Language Model for Quadruped Robot Learning

QUART-Online 提出了一种无延迟的四足机器人多模态语言模型（MLLM）部署方案。

通过“动作块离散化”（ACD）机制，将连续动作映射为代表性离散向量，有效压缩动作空间并保留语义信息，使得模型能与控制器实时协同运行。相较传统压缩方法对语言模型性能的破坏，QUART-Online 在保持语言理解能力的同时，显著提升了推理效率与任务完成率（+65%），为高频率场景下的具身决策提供了实用解法。

▲图1｜QUART-Online方法框架©️【深蓝具身智能】编译

论文地址：https://arxiv.org/pdf/2412.15576

项目地址：https://quart-online.github.io/

【ICRA】MoRE: Unlocking Scalability in Reinforcement Learning for Quadruped Vision-Language-Action Models

MoRE 提出了一种稀疏激活的混合专家架构，用于扩展大型多模态语言模型在四足机器人上的任务适应能力。

该方法将多个低秩适配器（LoRA）作为不同专家嵌入模型中，并引入强化学习式的 Q-function 训练目标，使其能在混合质量数据上进行高效学习。MoRE 展示了在六种技能上的领先表现与优异的泛化能力，并成功实机部署，为多任务控制奠定基础。

▲图2｜MoRE方法框架©️【深蓝具身智能】编译

论文地址：https://arxiv.org/pdf/2503.08007

【ICLR】VLAS: Vision-Language-Action Model with Speech Instructions for Customized Robot Manipulation

该研究针对稀疏奖励和轨迹覆盖不足的问题，提出了 RBS（Retrospective Backward Synthesis），通过在目标条件 GFlowNets 中合成反向轨迹，丰富训练数据的多样性和质量，有效缓解稀疏奖励带来的学习困难。

▲图3｜VLAS方法框架©️【深蓝具身智能】编译

论文地址：https://arxiv.org/pdf/2502.13508

【ICLR】GEVRM: Goal-Expressive Video Generation Model For Robust Visual Manipulation

GEVRM 聚焦 VLA 模型在实际部署中面对扰动信息时的鲁棒性问题，借鉴内部模型控制（IMC）理念，设计了一个视频生成引导的闭环决策系统。

通过生成未来视觉目标、构建“扰动响应模拟嵌入”，并结合原型对比学习优化，GEVRM 能显式感知和补偿外部扰动，显著提升在标准与受扰环境下的操作稳定性，在 CALVIN 基准与真实任务中取得 SOTA 表现。

▲图4｜GEVRM方法框架©️【深蓝具身智能】编译

论文地址：https://arxiv.org/pdf/2502.09268

强化学习与策略优化

具身智能的核心在于“感知-决策-行动”的闭环执行，而强化学习（RL）正是链接感知与行为的关键技术。

【ICML】Stay Hungry, Keep Learning: Sustainable Plasticity for Deep Reinforcement Learning

深度强化学习面临神经元“早期偏倚”与“死亡神经元”问题，限制了策略的持续学习能力。

为此，研究团队提出了 SBP 框架，通过“周期重置+内蒸馏”的神经元再生机制，实现全网络的有机更新。结合 PPO 算法，形成了 Plastic PPO（P3O），显著提升了策略的可塑性与样本效率。

▲图5｜P3O方法框架©️【深蓝具身智能】编译

论文地址：https://openreview.net/pdf?id=hTrSxX3kiV

【ICML】ReinboT: Amplifying Robot Visual-Language Manipulation with Reinforcement Learning

传统 VLA 模型依赖模仿学习，难以应对训练数据质量不一的挑战。

ReinboT 将强化学习引入 VLA 框架，通过预测密集式回报来刻画操作任务的细粒度价值信息，使得模型能更鲁棒地生成决策动作。该方法在 CALVIN 混合质量数据集上表现优异，在真实任务中也展现出强大的小样本学习与泛化能力。

▲图6｜ReinboT方法框架©️【深蓝具身智能】编译

论文地址：https://arxiv.org/pdf/2505.07395

【ICML】Score-Based Diffusion Policy Compatible with Reinforcement Learning via Optimal Transport

OTPR 创新性地将扩散策略模型与强化学习目标结合，通过最优传输（OT）理论建立两者之间的数学联系。

Q 函数被视作传输代价，策略被建模为 OT 映射，同时引入了掩码机制与兼容性重采样来提升训练稳定性。这一融合方法不仅提升了扩散策略在稀疏奖励场景下的表现，也为 IL 与 RL 的联合优化提供了新的范式。

▲图7｜OTPR方法框架©️【深蓝具身智能】编译

论文地址：https://arxiv.org/abs/2502.12631

项目地址：https://github.com/Sunmmyy/OTPR

【RAL】Multi-Task Multi-Agent Reinforcement Learning via Skill Graphs

面向多任务与多智能体控制场景，本项工作提出了基于技能图的层次式强化学习架构。

高层模块使用任务无关的技能图建模通用策略迁移能力，低层模块采用标准 MARL 算法独立训练，突破了现有方法对任务相关性和知识共享的限制，显著提升了泛化性能与适应性。

▲图8｜方法框架©️【深蓝具身智能】编译

论文地址：https://arxiv.org/pdf/2507.06690

通用感知与跨模态理解

本部分聚焦于通用感知策略与跨模态表征优化，涵盖从行为克隆的冗余压缩，到全新动作生成范式的突破。

【ICCV】CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction

在动作策略建模上，传统的自回归模型高效但精度有限，而扩散模型虽精准却计算开销大。MiLAB 提出的 CARP（Coarse-to-Fine AutoRegressive Policy）打破这一对立，将动作序列生成拆解为“粗到细”的多尺度自回归过程。

该方法先通过动作自编码器捕捉多尺度信息，再用 Transformer 逐层细化，最终实现比肩扩散模型精度的同时，将推理效率提升近 10 倍。这种兼顾性能与效率的新范式，展示了在机器人动作生成上更具实用性的方向。

▲图9｜CARP方法框架©️【深蓝具身智能】编译

论文地址：https://arxiv.org/abs/2502.02853

【ICML】Rethinking Latent Redundancy in Behavior Cloning:An Information Bottleneck Approach for Robot Manipulation

尽管行为克隆（BC）是机器人模仿学习的核心方法，但其潜在表征常被冗余信息干扰，制约了泛化能力。

为此，本研究从信息论出发，引入互信息与信息瓶颈理论，构建了首个系统性分析 latent 冗余的行为克隆框架。在多个主流基准测试上，该方法显著提升了策略性能，验证了“少即是多”的感知建模哲学：压缩无关信息，提取关键特征，方能更好地服务下游控制任务。

▲图10｜方法框架©️【深蓝具身智能】编译

论文地址：https://arxiv.org/pdf/2502.02853

项目地址：https://baishuanghao.github.io/BC-IB.github.io/

通用系统能力与辅助机器人

本部分聚焦 MiLAB 在具身系统底层能力建设与社会服务场景的两项探索，体现了实验室在技术稳健性与机器人社会价值上的双重关注。

【Nature Reviews Electrical Engineering】The Robotic Guide Dog for Individuals with Visual Impairments

本文面向视障人群出行辅助需求，提出一套“机器人导盲犬”系统。

该系统集成了路径规划、环境感知与人机交互等模块，意在替代传统导盲犬工具，提升视障者的出行独立性。论文不仅介绍了系统整体架构，也探讨了从技术研发到商业化落地过程中的实际挑战，展示了具身智能在特殊人群辅助中的落地潜力。

▲图11｜机器狗导盲犬示例图©️【深蓝具身智能】编译

论文地址：https://www.nature.com/articles/s44287-024-00130-w

【RAL】Koopman-Based Robust Learning Control With Extended State Observer

本文提出一种结合 Koopman 操作子建模与扩展状态观测器（ESO）的鲁棒学习控制框架，旨在提升具身智能系统在未知扰动环境下的控制稳定性与训练数据利用率。

方法通过主动学习机制引导高效数据采集，并借助 ESO 实现对外部扰动的精确补偿。实验验证表明，该方法显著提升了控制精度和泛化性能，为实际部署中的高可靠性控制提供了新解法。

论文地址：https://ieeexplore.ieee.org/abstract/document/10842507/

总结

回顾 2025 上半年，MiLAB 在具身智能的多个核心方向持续发力，产出了一系列高质量成果：

从推动 VLA 模型在真实任务中的长时序执行与模态扩展，到探索强化学习与模仿学习的边界融合；
从提升感知-控制策略的效率与泛化能力，到面向真实社会需求的系统级落地实践。

无论是底层算法创新，还是系统集成与人机协作，MiLAB 的研究工作都展现出强烈的问题导向与技术突破力。

如果你对哪篇论文感兴趣，或者还想看我们盘点、解读哪些实验室的最新工作，欢迎在评论区告诉我们！

编辑｜阿豹

审编｜具身君

参考：MiLAB

https://milab.westlake.edu.cn/publications.html

工作投稿｜商务合作｜转载：SL13126828869

我们开设此账号，想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外，也想和大家一起见证它到底是泡沫还是又一场热浪？‍

欢迎关注【深蓝具身智能】👇

1、硬核焦点 | 半年，拿下7大顶会“大满贯”！盘点清华大学TEALab最新成绩单

2、【600人参与票选中】：谁是最有潜力的「灵巧手」企业！

3、全面优于π0 ！全球首个端到端全身控制VLA模型G-0全面开源，直击七大“关键问题”

～【研发/硬件需求】咨询～

💪致力于解决各类研发、硬件、人才需求。机器人、自动驾驶、无人机等研发硬件，研发合作、企业内训、高校建设、人才内推等具身智能行业综合方案。

商务合作扫码咨询

机器人、自动驾驶、无人机等研发硬件

关于我们：深蓝学院北京总部于2017年成立，2024年成立杭州分公司，2025年成立上海分公司。

学院课程涵盖人工智能、机器人、自动驾驶等各大领域，开设近100门线上课程。拥有多个实训基地助力教学与科研，多台科研平台硬件设备可供开展算法测试与验证。

服务专业用户数超11万（人工智能全产业链垂直领域的高净值用户），硕博学历用户占比高达70%。已与多家头部机器人企业、头部高校建立深度合作，深度赋能教育、企业端人才培养与匹配。

工作投稿｜商务合作｜转载：SL13126828869

【深蓝具身智能】的内容均由作者团队倾注个人心血制作而成，希望各位遵守原创规则珍惜作者们的劳动成果。

点击❤收藏并推荐本文