在动态视觉环境中很好地完成语言指令任务,仍是当前具身智能领域的难题。现有视觉-语言-动作(VLA)模型大多采用反应式决策,即"看到什么就执行相应动作"的被动响应。这种反应式决策无法进行长程规划,导致机器人在复杂任务中表现出明显的短视行为,且在动态场景中鲁棒性较差。此外,当环境条件偏离训练分布时,基于固定模式训练的模型往往出现性能急剧下降。
为此,上海 AI Lab联合哈尔滨工业大学(深圳)提出一种融合视觉生成与决策的预训练VLA模型F1。该模型采用混合专家Transformer架构,包含感知、生成和控制三大专用模块,实现了理解、生成与执行的统一。

F1通过在超过33万条轨迹的数据集上进行训练,涵盖5种不同具身化形式和136个任务类别。在Genie-1人形机器人本体上的9个真实任务中,表现出很强的性能。F1平均抓取率达到92.6%,任务成功率达到82.2%,全面超越π0(平均抓取率78.5%和任务成功率65.2%)。

论文标题:《F1: A Vision-Language-Action Model Bridging Understanding and Generation to Actions》
论文链接:https://arxiv.org/abs/2509.06951
项目主页:https://aopolin-lv.github.io/F1-VLA
开源代码:
https://github.com/InternRobotics/F1-VLA
1
方法
1.1 整体框架
F1是一个VLA模型,它通过混合专家Transformer(MoT)架构,将感知、视觉生成和动作执行融为一体。通过联合建模理解、预测和控制,F1使机器人能够在复杂环境中进行鲁棒的规划和行动。
如图2所示,F1包含三个专用专家模块:理解专家、生成专家和动作专家。给定一条指令和当前观测,理解专家会对语义和视觉信息进行编码,以建立共享的多模态表征。该表征随后传递给生成专家,能够预测一个以目标为条件的视觉预测。最后,预测出的图像被输入到动作专家,该专家将其构建为一个预测性逆动力学建模问题,使模型能够生成一个动作块,让机器人朝着生成的视觉目标执行。

1.2 训练方案
F1在超过33万条轨迹的大规模数据集上进行训练,涵盖AgiBotWorld(187K轨迹)、LIBERO(1.7K轨迹)、OXE-Bridge-v2(5.32万轨迹)和OXE-Fractal(8.72万轨迹),包括5种不同的具身本体和136个任务类别。
任务复杂度范围从10秒的简单抓取延伸到2分钟以上的复杂序列操作,为模型提供了丰富的学习样本和充分的泛化基础。
训练采用了三阶段训练方案:
预训练阶段一:对齐生成专家与理解专家;
预训练阶段二:在大规模机器人数据集上预训练完整模型;
后训练阶段:在特定任务演示数据上进行后训练,以适配多种机器人本体。
1.3 实现细节
F1采用混合专家Transformer架构,包含理解专家、生成专家与动作专家三个核心模块。其中,理解专家的结构与PaliGemma保持一致;而生成专家和动作专家均基于Gemma核心架构构建。该架构整合了Swish激活函数、RMSNorm归一化以及旋转位置编码。在参数初始化方面,理解专家与动作专家均参考π0模型的权重;生成专家则采用随机初始化,将VAR中预训练的残差VQ-VAE模型用于图像量化处理。
2
实验
为全面评估F1模型,研究人员在仿真和真实世界任务中进行了广泛的实验。实验不仅验证了模型的性能,还验证了其在各种具有挑战性的场景下的鲁棒性和泛化能力。
2.1 真机实验
为评估F1模型的性能,在如下图所示的人形机器人Genie-1上进行了9项真实世界任务实验。

对于每项任务都收集了演示数据,并对F1模型及其他VLA模型,包括π0、gr00t-N1和gr00t-N1.5进行微调。每个模型在每个任务上评估15次,统计平均抓取成功率和任务完成率。

实验结果如表1所示。F1在所有任务中均表现出卓越的性能,平均抓取成功率达到92.6%,平均任务完成率达到82.2%。相比之下,次优的基线模型π0仅达到78.5%的抓取成功率和65.2%的任务完成率,而gr00t-N1和gr00t-N1.5的成功率和完成率则更低。
实验结果证明了融合视觉生成与决策的预训练VLA模型F1的有效性。甚至在Chip任务中,F1抓取成功率高达100%。特别是在需要精确协调和动态调整的复制任务Handover (R2H)上,F1显著超越其他基线模型。通过将动作生成转化为前瞻引导的逆动力学问题,F1有效连接了理解、生成与执行,在不同真实世界任务中实现了更高的鲁棒性和泛化能力。
2.2 仿真实验
在LIBERO和SimplerEnvBridge两个仿真基准上评估F1与其他VLA模型的性能。
LIBERO基准:该基准评估机器人操作技能,重点关注空间和物体中心推理以及长程规划,实验结果如表2所示。

F1模型在四种测试套件中均达到SOTA性能。证明了F1的前瞻引导规划方法的有效性,通过合理预测的未来视觉状态,将动作生成转化为信息更充分的逆动力学问题。
SimplerEnvBridge基准:该基准侧重于处理复杂的多步操作任务,通常需要细粒度控制和精准交互。将F1与RT-1-X、RoboVLM、SpatialVLA、π0和π0-Fast进行对比。实验结果如表3所示。

2.3 动态环境测试
为评估F1的鲁棒性,研究人员设置了一项动态操作任务,构建了一个带传送带的厨房环境。机器人需要根据指令在移动的传送带上抓取特定食品。为进一步测试模型的泛化性,采用了预训练数据集中未出现过的机器人本体ARX-LIFT2进行实验,后训练阶段的演示数据仅包含47条轨迹,以探索模型从预训练中获得的控制能力。
实验结果如图7所示,F1模型能够在连续双臂动态抓取任务中取得66.7%的成功率。在“生菜”和“面包”这两个具体任务上,F1的成功率均达到80.0%,而π0仅分别只有53.3%和46.7%。

F1的性能优势在于其核心的视觉前瞻模块,该模块使其能够预测运动物体的未来位置并据此规划动作。实验表明,F1能有效地利用其预训练获得的视觉知识,泛化到新的机器人平台,并稳定的应对来自动态真实世界的挑战。
3
总结
本论文提出一种融合视觉生成与决策的预训练VLA模型F1。该模型将控制问题重构为视觉前瞻引导的逆动力学过程,使得行动不仅能基于当前状态,还能依据预测的视觉结果。在架构上采用三个混合专家Transformer架构。
为进一步增强鲁棒性与泛化性,采用三阶段训练策略,在大规模及特定的机器人数据集上逐步完成专家模块的对齐、预训练与适配。仿真实验与真机实验表明,F1性能显著超越其他采用反应式决策的VLA模型,能在动态与长程任务中实现更高成功率与更强泛化能力。
END
智猩猩矩阵号各专所长,点击名片关注