VLA几乎奠定了机器人操作任务的范式,非结构化环境下好用,泛化能力强,相关工作层出不穷。但通用语义感知和策略学习,一直只能处于微妙的“平衡状态”,丝滑轨迹学习的同时,不自觉得牺牲了“通用性”。
具身世界模型作为近年来比较火热的研究领域,更能理解视觉动态与动作之间的因果关系,而且具备 “想象” 未来的能力。也基于此,不少团队尝试将世界建模引入到机器人策略中。
然而,现有世界模型面临着“长期记忆缺失”、“因果特性与物理现实相悖”等问题,无法真正取得实用性能。
近日,蚂蚁灵波开源了一套自回归扩散世界模型LingBot-VA,这也是他们继感知模型、具身大模型与世界模型“三连发”后的又一重磅开源!
不难看出,最近推出的几个比较有突破性的工作都隐隐地指向了他们的观点“VLA 和世界模型将会深度融合,两者各有优势,而且彼此互补”。这也是LingBot-VA诞生的基础,并且成为了业内率先做到将世界模型直接用于机器人操作,而且开源的工作。
LingBot-VA的主要思路是:“将大规模视频生成模型与机器人控制深度融合,在预测未来状态的同时,直接推演出对应的动作序列,潜空间想象和动作推理协同进行,一边推演、一边行动”。
性能上,相比于国际顶流机器人操作模型(比如pi0.5),LingBot-VA准确率平均提升20%,特别是复杂物理交互下的场景(比如做早餐、叠衣服等)。
高难度任务也仅需30-50条数据即可完成适配,这也将机器人的操作任务带入了一个新的范式。

代码和模型均已开源:
-
网站:https://technology.robbyant.com/lingbot-va -
代码仓库:https://github.com/robbyant/lingbot-va -
模型 checkpoint:https://huggingface.co/robbyant/lingbot-va -
魔搭链接:https://www.modelscope.cn/collections/Robbyant/LingBot-va
当机器人一边推演,一边执行
想象一下,在客厅里,机器人“提前预测下一秒的动作”,并给出信号“指导”控制,非常协调。相比于传统的操作方案,预测能力显得格外重要,面对新的状况也能从“手足无措”切换到“游刃有余”。
相比于“见到才知道是什么”的模型,LingBot-VA能推演未来,也赋予了其未卜先知的能力。依靠历史信息,未来帧的预测更有参考性和逻辑性,这也为动作的执行提供了参考。
无论是真机实验还是仿真测试,LingBot-VA都刷新了现有模型的天花板高度。
1)实测六大挑战任务,相比pi0.5表现惊艳
真实机器人平台的表现会怎么样?也许不少人会这样问。这一点,研究团队进行了充分的“刁难性测试”。
LingBot-VA在真机平台上挑战了三大类、共六个高难度操作任务,来检验它在真实世界中的实际能力,包括:
(1)长时程挑战:完整“制作早餐”与高效“拆快递”,考验机器人连续推理与持久执行能力;
(2)精准操作挑战:完成“插入细管”与“拾取螺丝”,展现毫米级定位与精细控制;
(3)柔性物体挑战:驾驭“叠衣服”“叠裤子”,应对非刚性物体带来的独特控制难题。

长程任务“记忆良好,稳如磐石”。LingBot-VA展现出强大的“记忆力”,通过视频与动作联合建模,即便面对复杂多步任务,也能全程保持任务连贯性,不丢失目标。拆快递任务上,相比于pi0.5,LingBot-VA成功率提升近40%。
“精准完成任务,动作的细粒度拉满”。统一潜空间设计让视觉与动作深度对齐,实现了“眼手合一”的精准控制,让机器人的每一个细微动作都准确到位。拾取螺丝任务上,相比于pi0.5,LingBot-VA成功率提升近20%。
“柔性物体从容应对”。视频生成技术提供了隐式物理引导,让机器人能“预见”物体动态变化,从而生成更符合真实物理规律的操作轨迹,轻松驾驭柔软材质。“叠裤子”任务上,成功率爆拉!
2)Robotwin2.0上:完胜各类顶流模型
再来看看有高难度之称的双臂操作基准RoboTwin 2.0,继续超越:
✅ 整体表现卓越
-
简单场景(Easy)成功率:92.9% -
困难场景(Hard)成功率:91.6%
两项成绩均大幅超越所有同类方法(包括pi0、pi0.5、X-VLA、Motus等)!
✅ 长时程任务优势显著:明显领先第二名!
当任务时长达到3级时,LingBot-VA展现出更强的时间记忆与持续执行力:
-
简单场景提升 8.2% -
困难场景提升 9.1%
3)LIBERO基准上:长程任务超越主流方案
在另一主流评测基准LIBERO上也显示出LingBot-VA的优势,LIBERO-Long上模型获得了98.5%的成功率,这也是目前模型最高性能。
视频-动作,LingBot-VA在尝试多种具身可能
1)一句话定义:“世界模型”下的具身智能
LingBot-VA不是Vision-Action的架构,而是Video-Action,即世界模型方案。
本质是一个自回归扩散框架,在架构上将视觉动态预测与动作推理统一到单一交错序列中。它使机器人能够同时推理未来状态并执行精确的闭环控制。
但和先前工作的不同之处在于,LingBot-VA具备因果理解的能力。
主要包含三个核心组件:
-
自回归视频-动作世界建模:描述如何在潜空间中建模视觉动态并从预测状态转移中解码动作; -
LingBot-VA:统一架构与训练; -
实时部署与异步推理:预测的快,行动的更快。
下面这个视频比较直观的展示了LingBot-VA是如何工作的:
-
自回归视频生成根据当前观测和语言指令预测未来帧; -
逆向动力学模型(IDM)从预测视频中解码出动作; -
执行后用真实观测替换视频 KV-cache,将视频-动作模型锚定在实际结果上,实现闭环控制。
2)自回归视频-动作世界建模
以往的算法主要使用双向视频生成方法或学习交互式的仿真器,其实不适合闭环控制。但一次性生成长序列的开环方法计算成本又太高,且没有闭环的实时反馈。扩散模型相关的方法存在持续记忆和因果混淆的问题,基于种种考虑之后,LingBot-VA选择了基于自回归的视频-动作世界建模。
物理世界本质上是因果且自回归的:当前状态仅依赖于过去,未来在发生前无法被观测。
这种方法在机器人控制中有三项关键优势:
-
(1)持续记忆:通过因果注意力和KV-cache显式依赖完整观测历史,模型在整个轨迹中维持长时程上下文和时间连贯性,避免chunk-based方法的“遗忘”问题; -
(2)因果一致性:单向依赖结构与闭环行为无缝对齐,新观测直接作用于下次动作结果; -
(3)效率:chunk-wise并行生成与chunk间自回归灵活结合,在实现高频控制的同时支持实时修正误差。
3)LingBot-VA:统一架构与训练
为了联合建模视频和动作生成,LingBot-VA采用双流扩散Transformer架构,实现基于条件flow matching的自回归预测。
-
模型包含两个并行的Transformer主干网络:动作流的网络深度相同但每层不需要这么大的参数。 -
这种非对称设计的考量是:动作分布本质上比视觉数据更简单,只需更少参数即可有效建模,同时保持视觉动态的表达能力。 -
值得一提的是Mixture-of-Transformers (MoT) 架构:采用了 MoT 架构,实现视频处理与动作控制两种模态的深度融合与协同处理。
MOT的设计允许视频和动作通过注意力相互影响,同时维持独立的参数,避免模态表征间的相互干扰。动作解码时,最终动作流输出通过MLP映射为低维动作向量。
4)预测的快,行动的更快
之前1xWM的世界模型一个非常大的短版就是:先预测结果,再进行动作。慢,非常慢。
LingBot-VA的自回归方法可以支持推理时的KV-cache加速,在每个自回归步骤中,仅新token(当前观测和预测动作)需要完整的注意力计算,缓存的历史token可直接复用。
但,这还不够。自回归预测的推理耗时仍然不满足实时控制。为了解决这个问题,LingBot-VA进一步引入异步推理策略,将动作预测与执行流水线化。
-
做法很巧妙:引入前向动力学模型(FDM)。不再依赖历史的预测,而是通过执行FDM的过程替代。 -
可以这么理解:正常的过程是进行一个动作才能得到一个新的观测,利用新的观测再得到下一个新的动作,这种串行的方法就很慢。 -
LingBot-VA的想法是,进行当前的动作的同时,利用上一次的观测预测下一次的动作,而不是利用当前动作结束后得到的观测再预测下一次的动作。
❎利用上一次的观测预测下一次的动作,中间跳过了一步(应该利用当前的观测预测下一次的动作)。会导致一个问题:忽略真实观测提供的关键物理反馈,最终导致模型失去对环境的反应能力。
所以不能这么粗暴的直接使用。
✅LingBot-VA的做法很聪明:
-
利用前向动力学模型,利用上一次的观测,进行当前的动作,并“想象”进行这个动作之后的新的观测。 -
这样就可以利用“想象”的观测预测下一次动作,避免了直接利用上一次的观测所带来的问题。 -
之后再用下一次动作之后得到的真实观测强制对齐先前“想象”的观测,这种设计将异步算法升级为稳健的闭环系统,使机器人能够有效感知并响应真实世界的变化。
有限数据下,比pi0.5学的更好
如果能高效利用采样的数据,就再也不用一直靠堆数量来提效果来。这一点,LingBot-VA也表现出质的提升了!
仅10条训练数据能够训出效果吗?LingBot-VA在“制作早餐”任务上的进度分数比pi0.5高出15.6%,在RoboTwin 2.0基准上高出10.3%,展示了卓越的样本利用效率。这些也展示了,LingBot-VA能够在各种操作场景中从有限的数据中更有效地学习。
究其本质,还是Video-Action这种世界模型设计带来的优势。联合预训练的视频生成模型提供了关于物理动态和物体交互的丰富视觉先验,这些先验在训练后阶段起到隐式正则化的作用。这使动作模型能够利用视频流中编码的世界知识,有效降低了适应新任务所需的样本复杂度。
相比之下,像π0.5缺乏对视觉动态的显式建模,因此没有结构化的动态先验来指导学习,需要更多的演示样本从零开始学习任务特定的行为。
记忆特别“长”,动作精确
为了检验模型的时间记忆能力,LingBot-VA在两类需要长期维护状态信息的任务上进行了测试:
任务一:擦拭盘子
机器人需精准擦拭盘子 六次 —— 这不仅考验动作控制,更要求机器人具备“计数”与“重复动作记忆”的能力。
任务二:搜索盒子
场景中左右各有一个盒子,仅其中一个藏有积木。
-
训练时:积木随机出现在左或右盒中 -
测试时:积木 始终在左边
若缺乏记忆,机器人在发现右边为空后,有50%概率会重复打开它;若具备记忆,则应持续搜索左边盒子。
如上图所示,LingBot-VA 在这两项记忆任务上均大幅超越pi0.5,根本是归功于世界模型的自回归架构:
🔹 训练时:通过教师强制,让预测依赖于完整历史信息;
🔹 推理时:KV 缓存自然保留全部历史,实现持久记忆。
OOD(分布外区域)泛化能力突出
过拟合和泛化差的情况,这次也被LingBot-VA解决了,LingBot-VA在新物体和分布外位置上均表现出了更强的泛化能力。其根本提升在于“世界模型通过视频预测学习可迁移的视觉表征,捕捉与物体无关的物理先验,并迁移到新场景中”。
这一点,通过两个维度的实验可以得到验证:
新物体泛化:在单个物体的拾取和放置任务上训练,在具有不同形状和纹理的不同物体上测试;
空间泛化:在局部区域的固定物体位置上训练(记为分布内(ID)),在随机位置(尤其是分布外(OOD)区域)上测试。
世界模型驱动下的操作任务,蚂蚁灵波正在发力
这几天,蚂蚁灵波开源发布了很多工作。
LingBot-World(模拟环境)、LingBot-VLA(智能基座)与 LingBot-Depth(空间感知)。
而LingBot-VA 探索出一条“世界模型赋能具身操作”的全新路径。
蚂蚁正在这条路线下,依托 InclusionAI 社区开源开放,与行业共建具身智能基础能力,加速构建深度融合开源开放、且服务于真实产业场景的AGI生态。