超π0两倍的性能提升!机器人领域的 F1 模型,成新一代 VLA “搅局者”?

深蓝具身智能 2025-09-18 12:31

>>距ARTS2025早鸟优惠仅剩【最后 12小时】<<

资讯配图

现有视觉 - 语言 - 动作(VLA)模型虽能理解复杂指令、识别环境,但决策仍局限于 “看到什么就做什么” 的即时反应

上海 AI 实验室与哈尔滨工业大学(深圳)的 F1 模型实现重大突破,将传统的反应式状态 - 动作映射转变为预见引导的逆动力学建模,借助 Mixute of Transformer(MoT)架构,把理解、预见和执行统一,赋予机器人基于未来视觉状态规划行动的能力。

我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?
欢迎关注【深蓝具身智能】👇

资讯配图

VLA模型的演进

VLA发展的3个关键阶段

VLA模型的发展经历了三个关键阶段,每个阶段都有其独特贡献和固有局限:

代表性工作如ACT、DP等,采用直接的观察-动作映射策略。这类方法虽然结构简洁,但缺乏语义理解能力,在面对复杂任务时泛化性能严重不足。

通过引入预训练视觉-语言模型(如π0、GROOT N1),显著提升了场景理解和指令解析能力。然而,这些方法本质上仍是反应式的,缺乏对环境演化的预测能力。

代表性研究(如VPP、Genie Envisioner)开始尝试预测未来观察状态,向前瞻性决策迈出了重要一步。但这些方法在语义理解和预测质量之间存在明显的权衡问题。

资讯配图

图1操作策略不同范式的比较。最早的端到端操作策略如图1(a)所示;图1(b)显示的策略引入了VLM;还有一些方法如图1(c)所示,利用视频扩散模型通过视频预测来指导动作执行;如图1(d)所示,我们采用了理解、生成和执行的集成架构,为动作执行模块提供场景和指令理解以及动态时间预测的能力。©️【深蓝具身智能】编译

核心技术瓶颈的深层分析

现有VLA模型面临三个根本性挑战:

传统的状态-动作映射无法进行长期规划,导致机器人在复杂任务中表现出明显的短视行为。

当环境条件偏离训练分布时,基于固定模式训练的模型往往出现性能急剧下降。

现有方法要么专注语义理解而忽视时间动态,要么关注预测能力而缺乏语义基础。

资讯配图

F1的创新架构设计

三专家协作的智能决策系统

F1采用了精心设计的三专家混合Transformer架构,每个专家承担特定的认知功能:

资讯配图

图2F1框架概览。它采用了混合变换器架构,包含三个核心组件:理解专家、生成专家和动作专家。©️【深蓝具身智能】编译

继承π0的预训练权重,专门负责建立自然语言指令与视觉观察之间的语义对应关系。该专家通过SigLIP视觉编码器提取高层感知特征,并与语言表示进行深度融合,为后续的预见生成奠定坚实的语义基础。

构成了F1的核心创新模块。该专家采用多尺度残差VQ-VAE编码策略,结合下一尺度预测机制,能够高效合成目标条件的视觉预见。生成的未来视觉状态不仅保持与当前环境的连贯性,更重要的是为动作规划提供明确的视觉目标。

实现了从预见到执行的关键转换。该专家基于当前观察、语言目标和生成的预见图像,通过预测性逆动力学建模生成短期动作序列。这种设计使得动作不再是对当前状态的被动反应,而是为实现预见目标的主动规划。

UGA渐进式注意力:信息流的精确控制

F1的UGA(Understanding-Generation-Action)渐进式注意力机制体现了对信息流的精确控制:

采用双向机制,确保每个专家内部能够充分整合相关信息。生成专家例外地采用因果注意力,以保持自回归生成的一致性。

严格遵循单向因果层次:生成专家只能访问理解专家的输出,动作专家可以访问前两者的信息,但信息绝不会反向流动。

这种设计的核心价值在于防止"信息泄漏"——确保动作信息不会影响预见生成,从而保证模型真正依赖视觉预测进行规划,而非利用隐含的动作线索。

三阶段渐进式训练策略

F1采用了精心设计的三阶段训练方案,"循序渐进"的具象化:

资讯配图

冻结继承自π0的理解专家权重,专门训练生成专家学习视觉预见生成。训练目标为:

在包含33万条轨迹的大规模数据集上联合优化三个专家,建立通用的视觉运动知识。采用自回归下一尺度预测和流匹配动作预测的组合目标:

在特定任务演示上进行微调,使模型适应新的具身化平台和精细操作技能。

关键技术选择的设计逻辑

基于模块化与统一性的平衡考虑。每个专家在保持功能专业化的同时,通过共享的Transformer骨干维持架构一致性,既实现了任务特化又避免了架构复杂化。

体现了计算效率与预测质量的巧妙权衡。通过多尺度残差VQ编码,F1避免了全分辨率预测的计算负担,同时保留了动作规划所需的关键视觉信息。

传统方法问的是"看到这个我该做什么",而F1问的是"为了达到那个状态我应该做什么"。这种问题重新表述从根本上改变了机器人的思维模式。

资讯配图

实验验证

大规模数据驱动的训练基础

F1在超过33万条轨迹的史无前例规模数据集上进行训练。

数据来源涵盖AgiBotWorld(187K轨迹)、LIBERO(1.7K轨迹)、OXE-Bridge-v2(5.32万轨迹)和OXE-Fractal(8.72万轨迹),跨越5种不同具身化形式和136个任务类别

任务复杂度范围从10秒的简单抓取延伸到2分钟以上的复杂序列操作,为模型提供了丰富的学习样本和充分的泛化基础。

资讯配图

图3真实世界机器人实验概览。我们在三个不同平台上进行了12个真实世界机器人实验:Genie-1、Franka和ARX LIFT II。Genie-1上的实验旨在评估模型处理任务多样性的能力。Franka实验评估模型的快速适应能力,而ARX LIFT II任务用于基准测试其在具有挑战性的长时序操作问题上的性能。©️【深蓝具身智能】编译

在Genie-1平台的9个真实任务中,F1展现了令人瞩目的性能优势。平均抓取率达到92.6%,任务成功率达到82.2%,而最强基线π0仅达到78.5%和65.2%的对应指标。

资讯配图

表1真实世界任务的结果。我们对每个模型在每个任务上测试15次,并报告其平均成功率。最佳结果用粗体表示。实验结果显示我们的F1相比其他VLA模型具有优越性能,特别是在需要动态环境理解能力的交接(R2H)任务中。©️【深蓝具身智能】编译

实验发现:

复杂协调任务中的显著提升。在"机器人到人类交接"这一需要精确时空协调的任务中,F1成功率达到93.3%,相比π0的40%实现了超过两倍的性能提升。这一结果直接证明了视觉预见在处理动态交互任务中的核心价值。

仿真基准

资讯配图

表2LIBERO基准测试结果。我们报告了四个套件的成功率(SR,越高越好)和排名(Rank,越低越好):LIBERO-Spatial、LIBERO-Object、LIBERO-Goal和LIBERO-Long,以及平均结果。最佳结果用粗体显示。©️【深蓝具身智能】编译

长时序任务的优异表现具有特殊意义。这类任务要求模型维持长期时间一致性并进行多步规划,正是传统反应式方法的薄弱环节。F1在此领域的突出表现验证了预见机制对于复杂规划任务的关键作用。

资讯配图

表3SimplerEnv Bridge基准测试结果。对于每个任务,我们报告抓取成功率和整体任务成功率,捕捉精细控制和精确放置能力。最后一列显示整体平均分数,通过对所有任务的抓取和完整任务完成成功率求平均得到。最佳结果用粗体显示。©️【深蓝具身智能】编译

消融研究:组件价值的定量分析

系统性消融研究量化了F1各组件的贡献度:

资讯配图

表4仿真基准的消融研究。我们设计了五个模型变体来验证F1不同组件的效果:(a) Frozen-Gen,(b) Cotrain-Scratch,(c) No-Gen,(d) 2-Scales,和(e) 6-Scales。©️【深蓝具身智能】编译

通过No-Gen变体得到最直接的验证。移除生成专家导致性能从77.5%急剧下降至60.3%,17.2%的性能损失充分证明了视觉预见的不可替代性。

在Cotrain-Scratch对比中得到体现。跳过大规模预训练导致3.3%的性能下降,表明广泛的机器人数据预训练为模型提供了重要的先验知识基础。

显示4尺度预测达到最佳平衡点。2尺度信息不足,6尺度引入过多噪声,这一发现为实际部署提供了重要的配置指导。

极限场景验证:动态环境与长时序挑战

动态环境测通过创新的传送带实验验证了F1的实时适应能力:

机器人必须根据语言提示抓取指定的食物,同时物体在传送带上连续移动。F1在运动目标抓取任务中达到66.7%的整体成功率,显著超越π0的33.3%。在"生菜"和"面包"抓取子任务中均达到80%的成功率,证明了视觉预见在处理动态目标时的独特价值。

资讯配图

图4动态操作任务的可视化。©️【深蓝具身智能】编译

资讯配图

图5动态操作任务结果。©️【深蓝具身智能】编译

该任务涉及十个连续步骤,跨越大约两分钟。每列报告15次试验中特定步骤的平均成功率。π0在前4个阶段之后表现困难,而F1在早期步骤中实现了持续的高成功率,并在后期更复杂的阶段保持了非平凡的性能。

资讯配图

表5长时序任务中的逐步成功率。©️【深蓝具身智能】编译

资讯配图

预见质量分析

预见生成的多维质量评估

F1将视觉预见作为显式规划目标的设计需要严格的质量保证。研究者建立了三维评估体系:

资讯配图

图6训练步骤中的生成质量。我们报告了生成质量在三个维度上的演变:场景一致性(左)、对象一致性(中)和任务进展跟随(右)。x轴表示训练步骤,不同的曲线对应不同的任务子集(AgibotWorld、Bridge、Fractal和LIBERO)。更高的分数表示生成的未来观察与真实任务进展之间更好的对齐。©️【深蓝具身智能】编译

评估全局环境的布局、光照和纹理连贯性;

检验操作对象和机器人的身份及位置一致性;

验证生成帧是否描绘了合理的任务推进步骤。

预见质量与动作精度的相关性验证

关键洞察来自预见质量与动作可靠性的强正相关关系:

资讯配图

图7图像和动作令牌准确性之间的相关性。它显示了四个LIBERO套件中图像令牌准确性和动作令牌准确性之间的关系。每个子图对应一个套件,动作准确性在不同容忍水平下报告(τ=0.01, 0.02, 0.05)。所有设置下一致的正相关关系表明,更高质量的视觉预见与改进的动作预测可靠性密切相关。©️【深蓝具身智能】编译

尽管图像令牌精度保持在相对较低的40-45%水平,生成的预见仍能为动作规划提供充足的任务相关线索。这一发现表明,任务级的合理性比像素级的视觉逼真度对控制系统更为重要。

图像令牌预测质量的提升与动作可靠性改进呈现高度相关性,验证了预见机制在动作生成中的有效传导作用。

定性结果的直观展示

定性分析展示了F1为各种操作任务生成合理下一步帧的能力,包括超市物品拾取、超市包装和折叠短裤。

资讯配图

图8生成未来图像的可视化。©️【深蓝具身智能】编译

每行比较真实帧与F1的预测,展示了其在不同场景中的准确预见能力。预测帧在任务层面保持高度合理性,与真实轨迹呈现良好对齐。模型成功内化了任务逻辑的时间发展规律,而非简单的视觉模式记忆。虽然在精细对象细节方面存在局限,但这并不影响其为动作规划提供有效指导。

资讯配图

总结

F1模型实现了VLA领域的重要突破,首次成功将视觉预见能力集成到统一的决策框架中。通过三专家MoT架构、UGA渐进式注意力机制和三阶段训练策略的设计,F1使机器人获得了真正的"未卜先知"能力。

虽然在计算效率和预见精度方面仍有提升空间,但F1已经为具身智能的发展指明了极具前景的方向。未来的机器人将从简单的"反应机器"进化为具备真正规划能力的智能体,F1的成功标志着我们向这一目标迈出了关键步伐。

编辑|Jeffrey J

审编|具身君


论文题目:F1: A Vision-Language-Action Model Bridging Understanding and Generation to Actions

论文作者:Qi Lv, Weijie Kong, Hao Li, Jia Zeng, Zherui Qiu, Delin Qu, Haoming Song, Qizhi Chen, Xiang Deng, Jiangmiao Pang

论文地址:https://arxiv.org/pdf/2509.06951

代码开源https://github.com/InternRobotics/F1-VLA


工作投稿|商务合作|转载

:SL13126828869(微信号)

>>距ATRS 2025早鸟优惠还有【最后 12 小时】<<

ABOUT US|关于ARTS

资讯配图

为促进自主机器人领域一线青年学者和工程师的交流,推动学术界与企业界的深度交融与产学研合作,中国自动化学会主办了自主机器人技术研讨会(Autonomous Robotic Technology Seminar,简称ARTS)


基于前两届大会的成功经验和广泛影响,第三届ARTS将继续深化技术交流与创新,定于2025年10月18日-19日在杭州举办。我们诚挚邀请您参加,并欢迎您对大会组织提供宝贵意见和建议!

资讯配图
资讯配图

【具身宝典】具身智能主流技术方案是什么?搞模仿学习,还是强化学习?看完还不懂具身智能中的「语义地图」,我吃了!你真的了解无监督强化学习吗?3 篇标志性文章解读具身智能的“第一性原理”解析|具身智能:大模型如何让机器人实现“从冰箱里拿一瓶可乐”?盘点 | 5年VLA进化之路,45篇代表性工作!它凭什么成为具身智能「新范式」?动态避障技术解析!聊一聊具身智能体如何在复杂环境中实现避障


【技术深度】具身智能30年权力转移:谁杀死了PID?大模型正在吃掉传统控制论的午餐……全面盘点:机器人在未知环境探索的3大技术路线,优缺点对比、应用案例!照搬=最佳实践?分享真正的 VLA 微调高手,“常用”的3大具身智能VLA模型!机器人开源=复现地狱?这2大核武器级方案解决机器人通用性难题,破解“形态诅咒”!视觉-语言-导航(VLN)技术梳理:算法框架、学习范式、四大实践盘点:17个具身智能领域核心【数据集】,涵盖从单一到复合的 7 大常见任务类别90%机器人项目栽在本地化?【盘点】3种经典部署路径,破解长距自主任务瓶颈!VLA模型的「核心引擎」:盘点5类核心动作Token,如何驱动机器人精准操作?


【先锋观点】周博宇 | 具身智能:一场需要谦逊与耐心的科学远征许华哲:具身智能需要从ImageNet做起吗?独家|ICRA冠军导师、最佳论文获得者眼中“被低估但潜力巨大”的具身智能路径独家解读 | 从OpenAI姚顺雨观点切入:强化学习终于泛化,具身智能将不只是“感知动作”


【非开源代码复现】非开源代码复现 | 首个能抓取不同轻薄纸类的触觉灵巧手-臂系统PP-Tac(RSS 2025)独家复现实录|全球首个「窗口级」VLN系统:实现空中无人机最后一公里配送不碰真机也不仿真?(伪代码)伯克利最新:仅用一部手机,生成大规模高质量机器人训练数据!

我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?‍


欢迎关注【深蓝具身智能】👇

资讯配图

【深蓝具身智能】的内容均由作者团队倾注个人心血制作而成,希望各位遵守原创规则珍惜作者们的劳动成果。

投稿|商务合作|转载:SL13126828869(微信)


资讯配图

点击收藏并推荐本文

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
more
《Science Robotics》封面:DeepMind发布RoboBallet,重新定义多机器人协同规划
剧透!高工机器人将在2025工博会上带来哪些亮点活动?
央视《朝闻天下》:机器人怎么造挖掘机?跟记者一起去看“赛博师傅”们干活
抢鲜!第十一届中国机器人高峰论坛暨第八届CEO圆桌峰会议程曝光,预约你的参会指南
造扫地机器人的追觅也要造车,对标的居然是布加迪!!!
MacBook被曝将配备触控屏/Meta发布首款带屏幕AI眼镜/华为预测 2035 年 AI 发展:90% 中国家庭拥有机器人
快讯|智元机器人首秀“韦伯斯特空翻”;露笑科技与开普勒合作;Figure将开发人形机器人数据集等
具身智能「登月计划」已启动 | 智元机器人Genie Trailblazer 计划全球招募
议程发布|2025年全国机器人精密减速器与关节创新论坛
PharmAGRI称与特斯拉签署意向书,拟采购1万台Optimus 3+人形机器人
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号