超33万条轨迹训练数据！上海 AI Lab联合提出统一理解生成与执行的VLA模型F1，已成功部署

智猩猩Robot整理

编辑：严浠

在动态视觉环境中很好地完成语言指令任务，仍是当前具身智能领域的难题。现有视觉-语言-动作（VLA）模型大多采用反应式决策，即"看到什么就执行相应动作"的被动响应。这种反应式决策无法进行长程规划，导致机器人在复杂任务中表现出明显的短视行为，且在动态场景中鲁棒性较差。此外，当环境条件偏离训练分布时，基于固定模式训练的模型往往出现性能急剧下降。

为此，上海 AI Lab联合哈尔滨工业大学（深圳）提出一种融合视觉生成与决策的预训练VLA模型F1。该模型采用混合专家Transformer架构，包含感知、生成和控制三大专用模块，实现了理解、生成与执行的统一。

超33万条轨迹训练数据！上海 AI Lab联合提出统一理解生成与执行的VLA模型F1，已成功部署图1

F1通过在超过33万条轨迹的数据集上进行训练，涵盖5种不同具身化形式和136个任务类别。在Genie-1人形机器人本体上的9个真实任务中，表现出很强的性能。F1平均抓取率达到92.6%，任务成功率达到82.2%，全面超越π0（平均抓取率78.5%和任务成功率65.2%）。

超33万条轨迹训练数据！上海 AI Lab联合提出统一理解生成与执行的VLA模型F1，已成功部署图2

论文标题：《F1: A Vision-Language-Action Model Bridging Understanding and Generation to Actions》
论文链接：https://arxiv.org/abs/2509.06951
项目主页：https://aopolin-lv.github.io/F1-VLA
开源代码：
https://github.com/InternRobotics/F1-VLA

方法

1.1 整体框架

F1是一个VLA模型，它通过混合专家Transformer（MoT）架构，将感知、视觉生成和动作执行融为一体。通过联合建模理解、预测和控制，F1使机器人能够在复杂环境中进行鲁棒的规划和行动。

如图2所示，F1包含三个专用专家模块：理解专家、生成专家和动作专家。给定一条指令和当前观测，理解专家会对语义和视觉信息进行编码，以建立共享的多模态表征。该表征随后传递给生成专家，能够预测一个以目标为条件的视觉预测。最后，预测出的图像被输入到动作专家，该专家将其构建为一个预测性逆动力学建模问题，使模型能够生成一个动作块，让机器人朝着生成的视觉目标执行。

超33万条轨迹训练数据！上海 AI Lab联合提出统一理解生成与执行的VLA模型F1，已成功部署图3

1.2 训练方案

F1在超过33万条轨迹的大规模数据集上进行训练，涵盖AgiBotWorld(187K轨迹)、LIBERO(1.7K轨迹)、OXE-Bridge-v2(5.32万轨迹)和OXE-Fractal(8.72万轨迹)，包括5种不同的具身本体和136个任务类别。

任务复杂度范围从10秒的简单抓取延伸到2分钟以上的复杂序列操作，为模型提供了丰富的学习样本和充分的泛化基础。

训练采用了三阶段训练方案：

预训练阶段一：对齐生成专家与理解专家；
预训练阶段二：在大规模机器人数据集上预训练完整模型；
后训练阶段：在特定任务演示数据上进行后训练，以适配多种机器人本体。

1.3 实现细节

F1采用混合专家Transformer架构，包含理解专家、生成专家与动作专家三个核心模块。其中，理解专家的结构与PaliGemma保持一致；而生成专家和动作专家均基于Gemma核心架构构建。该架构整合了Swish激活函数、RMSNorm归一化以及旋转位置编码。在参数初始化方面，理解专家与动作专家均参考π0模型的权重；生成专家则采用随机初始化，将VAR中预训练的残差VQ-VAE模型用于图像量化处理。

实验

为全面评估F1模型，研究人员在仿真和真实世界任务中进行了广泛的实验。实验不仅验证了模型的性能，还验证了其在各种具有挑战性的场景下的鲁棒性和泛化能力。

2.1 真机实验

为评估F1模型的性能，在如下图所示的人形机器人Genie-1上进行了9项真实世界任务实验。

超33万条轨迹训练数据！上海 AI Lab联合提出统一理解生成与执行的VLA模型F1，已成功部署图4

对于每项任务都收集了演示数据，并对F1模型及其他VLA模型，包括π0、gr00t-N1和gr00t-N1.5进行微调。每个模型在每个任务上评估15次，统计平均抓取成功率和任务完成率。

超33万条轨迹训练数据！上海 AI Lab联合提出统一理解生成与执行的VLA模型F1，已成功部署图5

实验结果如表1所示。F1在所有任务中均表现出卓越的性能，平均抓取成功率达到92.6%，平均任务完成率达到82.2%。相比之下，次优的基线模型π0仅达到78.5%的抓取成功率和65.2%的任务完成率，而gr00t-N1和gr00t-N1.5的成功率和完成率则更低。

实验结果证明了融合视觉生成与决策的预训练VLA模型F1的有效性。甚至在Chip任务中，F1抓取成功率高达100%。特别是在需要精确协调和动态调整的复制任务Handover (R2H)上，F1显著超越其他基线模型。通过将动作生成转化为前瞻引导的逆动力学问题，F1有效连接了理解、生成与执行，在不同真实世界任务中实现了更高的鲁棒性和泛化能力。

2.2 仿真实验

在LIBERO和SimplerEnvBridge两个仿真基准上评估F1与其他VLA模型的性能。

LIBERO基准：该基准评估机器人操作技能，重点关注空间和物体中心推理以及长程规划，实验结果如表2所示。

超33万条轨迹训练数据！上海 AI Lab联合提出统一理解生成与执行的VLA模型F1，已成功部署图6

F1模型在四种测试套件中均达到SOTA性能。证明了F1的前瞻引导规划方法的有效性，通过合理预测的未来视觉状态，将动作生成转化为信息更充分的逆动力学问题。

SimplerEnvBridge基准：该基准侧重于处理复杂的多步操作任务，通常需要细粒度控制和精准交互。将F1与RT-1-X、RoboVLM、SpatialVLA、π0和π0-Fast进行对比。实验结果如表3所示。

超33万条轨迹训练数据！上海 AI Lab联合提出统一理解生成与执行的VLA模型F1，已成功部署图7

2.3 动态环境测试

为评估F1的鲁棒性，研究人员设置了一项动态操作任务，构建了一个带传送带的厨房环境。机器人需要根据指令在移动的传送带上抓取特定食品。为进一步测试模型的泛化性，采用了预训练数据集中未出现过的机器人本体ARX-LIFT2进行实验，后训练阶段的演示数据仅包含47条轨迹，以探索模型从预训练中获得的控制能力。

实验结果如图7所示，F1模型能够在连续双臂动态抓取任务中取得66.7%的成功率。在“生菜”和“面包”这两个具体任务上，F1的成功率均达到80.0%，而π0仅分别只有53.3%和46.7%。

超33万条轨迹训练数据！上海 AI Lab联合提出统一理解生成与执行的VLA模型F1，已成功部署图8

F1的性能优势在于其核心的视觉前瞻模块，该模块使其能够预测运动物体的未来位置并据此规划动作。实验表明，F1能有效地利用其预训练获得的视觉知识，泛化到新的机器人平台，并稳定的应对来自动态真实世界的挑战。

总结

本论文提出一种融合视觉生成与决策的预训练VLA模型F1。该模型将控制问题重构为视觉前瞻引导的逆动力学过程，使得行动不仅能基于当前状态，还能依据预测的视觉结果。在架构上采用三个混合专家Transformer架构。

为进一步增强鲁棒性与泛化性，采用三阶段训练策略，在大规模及特定的机器人数据集上逐步完成专家模块的对齐、预训练与适配。仿真实验与真机实验表明，F1性能显著超越其他采用反应式决策的VLA模型，能在动态与长程任务中实现更高成功率与更强泛化能力。

END

智猩猩矩阵号各专所长，点击名片关注