超33万条轨迹训练数据!上海 AI Lab联合提出统一理解生成与执行的VLA模型F1,已成功部署

智猩猩 2025-09-24 18:30
智猩猩Robot整理
编辑:严浠


在动态视觉环境中很好地完成语言指令任务,仍是当前具身智能领域的难题。现有视觉-语言-动作(VLA)模型大多采用应式决策,即"看到什么就执行相应动作"的被动响应。这种反应式决策无法进行长程规划,导致机器人在复杂任务中表现出明显的短视行为,且在动态场景中鲁棒性较差。此外,当环境条件偏离训练分布时,基于固定模式训练的模型往往出现性能急剧下降。


为此,上海 AI Lab联合哈尔滨工业大学(深圳)提出一种融合视觉生成与决策的预训练VLA模型F1该模型采用混合专家Transformer架构,包含感知、生成和控制三大专用模块,实现了理解、生成与执行的统一。


超33万条轨迹训练数据!上海 AI Lab联合提出统一理解生成与执行的VLA模型F1,已成功部署图1


F1通过在超过33万条轨迹的数据集上进行训练,涵盖5种不同具身化形式和136个任务类别。在Genie-1人形机器人本体上的9个真实任务中,表现出很强的性能。F1平均抓取率达到92.6%,任务成功率达到82.2%全面超越π0(平均抓取率78.5%和任务成功率65.2%)。


超33万条轨迹训练数据!上海 AI Lab联合提出统一理解生成与执行的VLA模型F1,已成功部署图2


  • 论文标题:《F1: A Vision-Language-Action Model Bridging Understanding and Generation to Actions》

  • 论文链接:https://arxiv.org/abs/2509.06951

  • 项目主页:https://aopolin-lv.github.io/F1-VLA

  • 开源代码:

    https://github.com/InternRobotics/F1-VLA


1

方法


1.1 整体框架


F1是一个VLA模型,它通过混合专家Transformer(MoT)架构,将感知、视觉生成和动作执行融为一体。通过联合建模理解、预测和控制,F1使机器人能够在复杂环境中进行鲁棒的规划和行动。


如图2所示,F1包含三个专用专家模块:理解专家、生成专家和动作专家。给定一条指令和当前观测,理解专家会对语义和视觉信息进行编码,以建立共享的多模态表征。该表征随后传递给生成专家,能够预测一个以目标为条件的视觉预测。最后,预测出的图像被输入到动作专家,该专家将其构建为一个预测性逆动力学建模问题,使模型能够生成一个动作块,让机器人朝着生成的视觉目标执行。


超33万条轨迹训练数据!上海 AI Lab联合提出统一理解生成与执行的VLA模型F1,已成功部署图3


1.2 训练方案


F1在超过33万条轨迹的大规模数据集上进行训练,涵盖AgiBotWorld(187K轨迹)、LIBERO(1.7K轨迹)、OXE-Bridge-v2(5.32万轨迹)和OXE-Fractal(8.72万轨迹),包括5种不同的具身本体和136个任务类别。


任务复杂度范围从10秒的简单抓取延伸到2分钟以上的复杂序列操作,为模型提供了丰富的学习样本和充分的泛化基础。


训练采用了三阶段训练方案:


  1. 预训练阶段一对齐生成专家与理解专家;


  2. 预训练阶段二在大规模机器人数据集上预训练完整模型;


  3. 后训练阶段在特定任务演示数据上进行后训练,以适配多种机器人本体。


1.3 实现细节


F1采用混合专家Transformer架构,包含理解专家、生成专家与动作专家三个核心模块。其中,理解专家的结构与PaliGemma保持一致;而生成专家和动作专家均基于Gemma核心架构构建。该架构整合了Swish激活函数、RMSNorm归一化以及旋转位置编码。在参数初始化方面,理解专家与动作专家均参考π0模型的权重;生成专家则采用随机初始化,将VAR中预训练的残差VQ-VAE模型用于图像量化处理。


2

实验


为全面评估F1模型,研究人员在仿真和真实世界任务中进行了广泛的实验。实验不仅验证了模型的性能,还验证了其在各种具有挑战性的场景下的鲁棒性和泛化能力。


2.1 真机实验


为评估F1模型的性能,在如下图所示的人形机器人Genie-1上进行了9项真实世界任务实验。


超33万条轨迹训练数据!上海 AI Lab联合提出统一理解生成与执行的VLA模型F1,已成功部署图4


对于每项任务都收集了演示数据,并对F1模型及其他VLA模型,包括π0、gr00t-N1和gr00t-N1.5进行微调。每个模型在每个任务上评估15次,统计平均抓取成功率和任务完成率。


超33万条轨迹训练数据!上海 AI Lab联合提出统一理解生成与执行的VLA模型F1,已成功部署图5


实验结果如表1所示。F1在所有任务中均表现出卓越的性能,平均抓取成功率达到92.6%,平均任务完成率达到82.2%。相比之下,次优的基线模型π0仅达到78.5%的抓取成功率和65.2%的任务完成率,而gr00t-N1和gr00t-N1.5的成功率和完成率则更低。


实验结果证明了融合视觉生成与决策的预训练VLA模型F1的有效性。甚至在Chip任务中,F1抓取成功率高达100%。特别是在需要精确协调和动态调整的复制任务Handover (R2H)上,F1显著超越其他基线模型。通过将动作生成转化为前瞻引导的逆动力学问题,F1有效连接了理解、生成与执行,在不同真实世界任务中实现了更高的鲁棒性和泛化能力。


2.2 仿真实验


在LIBERO和SimplerEnvBridge两个仿真基准上评估F1与其他VLA模型的性能。


LIBERO基准该基准评估机器人操作技能,重点关注空间和物体中心推理以及长程规划,实验结果如表2所示。


超33万条轨迹训练数据!上海 AI Lab联合提出统一理解生成与执行的VLA模型F1,已成功部署图6


F1模型在四种测试套件中均达到SOTA性能。证明了F1的前瞻引导规划方法的有效性,通过合理预测的未来视觉状态,将动作生成转化为信息更充分的逆动力学问题。


SimplerEnvBridge基准该基准侧重于处理复杂的多步操作任务,通常需要细粒度控制和精准交互。将F1与RT-1-X、RoboVLM、SpatialVLA、π0和π0-Fast进行对比。实验结果如表3所示。


超33万条轨迹训练数据!上海 AI Lab联合提出统一理解生成与执行的VLA模型F1,已成功部署图7


2.3 动态环境测试


为评估F1的鲁棒性,研究人员设置了一项动态操作任务,构建了一个带传送带的厨房环境。机器人需要根据指令在移动的传送带上抓取特定食品。为进一步测试模型的泛化性,采用了预训练数据集中未出现过的机器人本体ARX-LIFT2进行实验,后训练阶段的演示数据仅包含47条轨迹,以探索模型从预训练中获得的控制能力。



实验结果如图7所示,F1模型能够在连续双臂动态抓取任务中取得66.7%的成功率。在“生菜”和“面包”这两个具体任务上,F1的成功率均达到80.0%,而π0仅分别只有53.3%和46.7%。


超33万条轨迹训练数据!上海 AI Lab联合提出统一理解生成与执行的VLA模型F1,已成功部署图8


F1的性能优势在于其核心的视觉前瞻模块,该模块使其能够预测运动物体的未来位置并据此规划动作。实验表明,F1能有效地利用其预训练获得的视觉知识,泛化到新的机器人平台,并稳定的应对来自动态真实世界的挑战。


3

总结


本论文提出一种融合视觉生成与决策的预训练VLA模型F1。该模型将控制问题重构为视觉前瞻引导的逆动力学过程,使得行动不仅能基于当前状态,还能依据预测的视觉结果。在架构上采用三个混合专家Transformer架构。


为进一步增强鲁棒性与泛化性,采用三阶段训练策略,在大规模及特定的机器人数据集上逐步完成专家模块的对齐、预训练与适配。仿真实验与真机实验表明,F1性能显著超越其他采用反应式决策的VLA模型,能在动态与长程任务中实现更高成功率与更强泛化能力。


END


智猩猩矩阵号各专所长,点击名片关注




声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
ICCV 25 Highlight | 扩散过程「早预警」实现6x加速,AIGC生图的高效后门防御
20位顶尖专家联名发文:揭示人脑超越AI的关键学习机制
AIME'25满分炸场!Qwen一波七连发,全家桶大更新
Claude断供惊魂14天:Qwen和DeepSeek迅速补位,戳破AI巨头的垄断假象
Nano Banana首款官方应用,谷歌全新AI画板工具来了
一场讲“药”“材”科研,一场谈低空基建,AI在不同领域怎么落地?看这场论坛就够了
阿里狂发300多款模型背后,吴泳铭:做“AI时代的安卓”
科研进展 | 加州大学洛杉矶分校通过AI为非侵入式脑机接口提供新性能突破
AI嘴替爆火,打工人疯狂@老板
AIGC如何为短视频营销全链路提效80%【502线上同行】
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号