最新 | 全球Top实验室联手攻克机器人泛化难题：端到端VLA数据、基准、Sim2Real差距……

今天是9月22日

大家周一好

7 篇本周关注到的学术进展（要点版）

【浙江大学、西湖大学】等联合提出 TrajBooster 框架，解决在高质量演示数据稀缺的情况下，VLA 模型难以快速适应新型机器人动作空间的问题。
【香港大学】提出了一种基于学习的框架FR-Net，解决四足机器人在复杂地形上跌倒后自主恢复站立的问题。
【加州大学伯克利分校】提出CRAFT框架，利用基础模型自动将长视野任务分解为子任务，并自动生成与优化奖励函数。
【香港中文大学】提出RealMirror开源端到端VLA研究平台，解决人形机器人领域中的三个核心挑战：数据采集成本高、缺乏标准化基准、以及仿真与现实之间的巨大差距。
【北京大学】提出统一架构的导航基础模型 NavFoM，编码不同具身形态的相机视角信息和任务的时间上下文，从而实现对多形态、多任务导航输入的统一建模。
【密歇根大学】提出基于数据驱动的Koopman算子方法，首次实现了模拟多段肌腱驱动软机器人的实时全形状控制。
【加州大学伯克利分校】提出RAPTOR的方法，解决强化学习训练的机器人控制策略缺乏泛化能力的问题。

（如果有不全面的地方，欢迎大家补充，以期共同进步。PS：没时间看详细介绍的朋友，【要点速览】可供快速浏览。）

我们开设此账号，想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外，也想和大家一起见证它到底是泡沫还是又一场热浪？

欢迎关注【深蓝具身智能】👇

学术进展具体内容

1
浙江大学&西湖大学：TrajBooster 框架，解决在高质量演示数据稀缺的情况下，VLA 模型难以快速适应新型机器人动作空间的问题。。

本文提出TrajBooster，一种跨形态框架，利用丰富的轮式人形机器人数据来增强双足视觉-语言-动作（VLA）模型的性能。

本文的核心思想是采用末端执行器轨迹作为与形态无关的接口：

（i）从真实世界的轮式人形机器人中提取6D双臂末端执行器轨迹；

（ii）在仿真环境中通过全身控制器将这些轨迹重定向至Unitree G1机器人，该控制器采用启发式增强的协调在线DAgger方法进行训练，从而将低维轨迹参考转化为可行的高维全身动作；

（iii）构建异构三元组，将源域的视觉/语言信息与目标人形机器人兼容的动作相耦合，用于对VLA模型进行后预训练，之后仅需在目标人形机器人上收集10分钟的遥操作数据。

在Unitree G1机器人上的部署结果表明，本文的策略能够完成超越桌面范围的家庭任务，实现下蹲、跨高度操作以及协调的全身运动，在鲁棒性和泛化能力方面均有显著提升。

资讯配图

文章链接：https://arxiv.org/html/2509.11839v2

项目地址：https://jiachengliu3.github.io/TrajBooster/

2
香港大学：基于学习的框架FR-Net，解决四足机器人在复杂地形上跌倒后自主恢复站立的问题。

本文提出了一种基于学习的框架 FR-Net，使四足机器人能够在各种环境中从任意摔倒姿势中恢复。

本文方法的核心是一个质量-接触预测网络（Mass-Contact Predictor），该网络能够根据有限的传感输入估计机器人的质量分布和接触状态，从而制定有效的恢复策略。该框架完全在模拟环境中通过特权学习进行训练，从而在部署过程中无需明确的地形数据。

本文在模拟中展示了 FR-Net在不同四足机器人平台上的泛化能力，并通过在Go2机器人上进行的10种具有挑战性的现实场景实验验证了其性能。本文的研究结果表明，显式的质量-接触预测对于实现鲁棒的摔倒恢复至关重要，为可泛化的四足运动技能发展提供了一个有前景的方向。

资讯配图

文章链接：https://arxiv.org/html/2509.11504v1

3
加州大学伯克利分校：CRAFT框架，利用基础模型自动将长视野任务分解为子任务，并自动生成与优化奖励函数。

多智能体强化学习（MARL）为多智能体系统中的协调学习提供了一个强大的框架。本文提出了CRAFT（基于基础模型自主指导强化学习的多机器人协调框架），该框架利用基础模型的推理能力，充当多机器人协调的“教练”。

CRAFT利用大语言模型（LLM）的规划能力，自动将长周期协调任务分解为一系列子任务；随后，使用由LLM生成的奖励函数对每个子任务进行训练，并通过视觉语言模型（VLM）引导的奖励优化循环不断改进这些奖励函数。

本文在多四足机器人导航和双臂操作任务上对CRAFT进行了评估，验证了其学习复杂协调行为的能力。此外，本文还在真实硬件实验中验证了多四足机器人导航策略的有效性。

文章链接：https://arxiv.org/html/2509.14380v1

4
香港中文大学联合中兴公司：RealMirror开源端到端VLA研究平台，解决人形机器人领域中的三个核心挑战：数据采集成本高、缺乏标准化基准、以及仿真与现实之间的巨大差距。

本文提出了RealMirror——一个全面且开源的具身人工智能VLA平台。

RealMirror构建了一个高效、低成本的数据采集、模型训练与推理系统，使得无需依赖真实机器人即可开展端到端的VLA研究。为了促进模型的演进和公平比较，本文还专门为人形机器人设计了一个VLA基准测试，涵盖多种场景、大量轨迹数据以及多个VLA模型。

此外，通过融合生成式模型与3D高斯溅射技术来重建逼真的环境和机器人模型，本文成功实现了零样本的仿真到现实（Sim2Real）迁移，即仅在仿真数据上训练的模型便能无缝地在真实机器人上执行任务，无需任何微调。

通过整合上述关键组件，RealMirror提供了一个强有力的框架，显著加速了人形机器人VLA模型的发展。

文章链接：https://arxiv.org/html/2509.14687v1

项目主页：https://terminators2025.github.io/RealMirror.github.io

5
北京大学：统一架构的导航基础模型 NavFoM，编码不同具身形态的相机视角信息和任务的时间上下文，从而实现对多形态、多任务导航输入的统一建模。

本文提出一种跨具身形态、跨任务的导航基础模型（NavFoM），该模型在八百万条导航样本上进行训练，涵盖四足机器人、无人机、轮式机器人和车辆等多种具身形态，并覆盖视觉-语言导航、物体搜索、目标跟踪和自动驾驶等多种任务。

NavFoM采用统一架构，能够处理来自不同相机配置和不同导航时间跨度的多模态导航输入。为适应多样化的相机设置和时间跨度，NavFoM引入了标识符标记（identifier tokens），用以嵌入具身形态的相机视角信息以及任务的时间上下文信息。此外，为了满足实际部署的需求，NavFoM在有限的标记长度预算下，采用动态调整的采样策略来控制所有观测标记的数量。

在多个公开基准上的广泛评估表明，本文的模型无需针对特定任务进行微调，即可在多种导航任务和具身形态上达到最先进或极具竞争力的性能。进一步的实际场景实验也验证了该方法出色的泛化能力和实际应用潜力。

文章链接：https://arxiv.org/html/2509.12129v2

6
密歇根大学：基于数据驱动的Koopman算子方法，首次实现了模拟多段肌腱驱动软机器人的实时全形状控制。

本文提出一种基于数据驱动的Koopman算子方法，用于对采用Kirchhoff杆模型的多段肌腱驱动软体连续体机器人进行形态控制。

通过采集这些仿真软体机器人的运行数据，本文对机器人状态实施分段投影策略，从而识别出具有控制仿射形式的Koopman模型；与未采用投影方案的情况相比，该模型精度提升了一个数量级。基于所学习到的Koopman模型，本文采用线性模型预测控制（MPC）使机器人达到一系列复杂程度不同的目标形状。

本文的方法实现了计算高效的闭环控制，验证了软体机器人实时形态控制的可行性。

文章链接：https://arxiv.org/html/2509.11567v1

7
加州大学伯克利分校：RAPTOR的方法，解决强化学习训练的机器人控制策略缺乏泛化能力的问题。

本文提出了RAPTOR方法，用于训练一种高度自适应的基础策略以实现四旋翼飞行器的控制。

本文测试了10种不同的真实四旋翼平台，重量从32克到2.4公斤不等，它们在电机类型（有刷与无刷）、机架类型（柔性与刚性）、螺旋桨类型（双叶/三叶/四叶）以及飞控系统（PX4/Betaflight/Crazyflie/M5StampFly）等方面均存在差异。本文发现，一个仅有三层、仅含2084个参数的极小型策略网络，就足以实现对各种未知平台的零样本迁移适应。

这种基于上下文学习的适应能力得益于隐藏层中的递归结构。该策略通过一种新颖的元模仿学习算法进行训练：本文首先采样1000种不同的四旋翼配置，并使用强化学习为每一种配置训练一个教师策略；随后，将这1000个教师策略蒸馏融合为一个统一的、具备自适应能力的学生策略。

最终得到的基础策略能够在数毫秒内实现对未见过的四旋翼平台的零样本自适应。本文对这一基础策略在多种条件下的性能进行了广泛测试，包括轨迹跟踪、室内外飞行、风扰、外力触碰以及更换不同类型螺旋桨等情况。