具身智能新里程碑!高德发布ABot-M0.5:首创“移动-操作”统一的“世界-动作模型”,全面刷新移动操作 SOTA

3D视觉工坊 2026-07-04 00:00

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

作者供稿直发 | 编辑:3D视觉工坊

【导语】 通用机器人的终极考验,在于能否在复杂多变的物理世界中实现“边走边操作”(Mobile Manipulation)。今日,备受瞩目的具身智能最新成果 ABot-M0.5 正式发布。本文工作由高德地图 AMap-CV 实验室完成,是 ABot-Manipulation 系列继 ABot-M0 之后的又一重要续作。作为全新的统一世界-动作模型(Unified World Action Model, WAM),ABot-M0.5 以前所未有的架构创新,一举攻克了移动操作中“预测与控制脱节”的行业痛点,在 RoboCasa365、RoboTwin 2.0 等顶级基准测试中全面超越 π0、GR00T-N1.5 等知名基线,刷新了长程任务与细粒度控制的 SOTA 纪录。

具身智能新里程碑!高德发布ABot-M0.5:首创“移动-操作”统一的“世界-动作模型”,全面刷新移动操作 SOTA图1图1:ABot-M0.5 统一移动操作的世界-动作模型(WAM)整体架构与效果示意

🚨 行业痛点:当“世界模型”遇上“移动操作”

近年来,视觉-语言-动作模型(VLA)在机械臂操作中表现出色,但它们本质上是“反应式”的,缺乏对物理世界演化的显式预测能力。为了赋予机器人“预见未来”的能力,研究界引入了世界动作模型(WAM)。

然而,当 WAM 直接应用于移动操作时,却遭遇了严重的水土不服,暴露出三大结构性瓶颈:

  1. 粒度错位:宏观的视频预测过于粗糙,无法直接映射到微观的电机级精细控制。
  2. 动作耦合:底盘的“移动”与机械臂的“操作”频率和物理特性截然不同,混合预测会导致严重的梯度干扰。
  3. 训练-推理鸿沟:传统的训练方式(Teacher Forcing)让模型在“完美”的 ground-truth 视频下学习,一旦在真实自回归推理中产生微小误差,就会引发灾难性的误差累积。

具身智能新里程碑!高德发布ABot-M0.5:首创“移动-操作”统一的“世界-动作模型”,全面刷新移动操作 SOTA图2图2:ABot-M0.5 模型架构示意

💡 核心突破:ABot-M0.5 的“三大法宝”

为了彻底打破这些瓶颈,ABot-M0.5 基于 Wan2.2 视频扩散骨干网络,提出了一套系统性的工程解法,实现了从“未来预测”到“动作抽象”再到“硬件控制”的三级火箭式级联:

1. 中间潜在动作(Intermediate Latent Actions):搭建时空桥梁 ABot-M0.5 创造性地引入了“帧级潜在动作”作为中间层。它就像一位“翻译官”,将粗粒度的视频潜在状态转化为与具身硬件无关的运动意图,完美弥合了世界模型与底层控制之间的时间粒度鸿沟。

具身智能新里程碑!高德发布ABot-M0.5:首创“移动-操作”统一的“世界-动作模型”,全面刷新移动操作 SOTA图3图2:中间潜在动作架构示意

2. 双层混合 Transformer(Dual-level MoT):动作空间的“分轨”解耦 针对移动和操作的异质性,模型设计了独特的 D-MoT 架构。在模态层面,为视频、潜在动作和可执行动作分配独立的投影与输出头;在动作层面,将底盘移动(Mobility)和机械臂操作(Manipulation)强制分配到不同的 Transformer 子塔中。这种“分轨”设计彻底消除了高频操作信号对低频移动信号的干扰,让机器人“走”得更稳,“抓”得更准。

具身智能新里程碑!高德发布ABot-M0.5:首创“移动-操作”统一的“世界-动作模型”,全面刷新移动操作 SOTA图4图3:双层混合 Transformer(D-MoT)结构

3. 梦境强制(Dream Forcing):打破温室,直面真实 这是 ABot-M0.5 最具启发性的训练范式创新。它摒弃了依赖真实视频帧的传统训练,转而使用模型自己“做梦”预测出的视频(哪怕带有瑕疵)来训练动作预测器。这种机制让模型在训练阶段就习惯了自回归推理中的误差,从根本上解决了长程任务中的误差累积问题,大幅提升了部署鲁棒性。

具身智能新里程碑!高德发布ABot-M0.5:首创“移动-操作”统一的“世界-动作模型”,全面刷新移动操作 SOTA图5图4:Dream Forcing 训练机制示意

具身智能新里程碑!高德发布ABot-M0.5:首创“移动-操作”统一的“世界-动作模型”,全面刷新移动操作 SOTA图6图5:Dream Forcing 训练机制示意(续)

🔋 从“预训练”到“真机部署”:三阶段训练与可视化揭秘

ABot-M0.5 的强悍性能,源于其精心设计的三阶段渐进式训练范式,让模型真正完成了从“看懂世界”到“掌控物理”的蜕变:

  1. 世界模型预训练(World Model Pre-training):模型首先在海量视频数据中进行预训练,学习物理世界的时空演化规律,构建出强大的“物理直觉”;
  2. 潜在动作预训练(Latent Action Pre-training):通过自监督学习提取帧级运动表征,将宏观的视频变化转化为微观的动作意图;
  3. 渐进式监督微调(Progressive SFT):模型先基于真实视频帧进行联合微调,随后无缝切换至“梦境强制”模式,让模型在自己预测的未来画面中训练动作,彻底抹平训练与推理的鸿沟。

具身智能新里程碑!高德发布ABot-M0.5:首创“移动-操作”统一的“世界-动作模型”,全面刷新移动操作 SOTA图7图6:注意力掩码可视化

在可视化方面,论文展示的注意力热力图(Attention Maps) 直观印证了这一进化过程:从预训练初期的“四处张望”,到微调后精准锁定任务核心区域,模型的“视觉焦点”变得极其敏锐。同时,在 RoboCasa365 上的生成轨迹可视化更是惊艳,模型“梦境”中推演的移动与操作画面(通过黄绿双色清晰区分底盘移动与机械臂操作)与真实物理规律高度契合,真正做到了“所思即所见”。

具身智能新里程碑!高德发布ABot-M0.5:首创“移动-操作”统一的“世界-动作模型”,全面刷新移动操作 SOTA图8图7:预训练注意力热力图效果对比

🏆 战绩斐然:全面制霸各大顶级 Benchmark

ABot-M0.5 的架构优势在严苛的实验中得到了充分验证:

  • 移动操作(RoboCasa365):在极具挑战的家庭场景长程任务中,ABot-M0.5 取得了 40.3% 的平均成功率,大幅领先 GR00T-N1.5 (23.9%)、RLDX-1 (36.0%) 和 Qwen-RobotManip (35.9%)。在额外加了压缩记忆机制后(ABot-M0.6),甚至高达**46.6%**,超越其他模型10+%的准确率。

具身智能新里程碑!高德发布ABot-M0.5:首创“移动-操作”统一的“世界-动作模型”,全面刷新移动操作 SOTA图9图12:RoboCasa365 移动操作基准测试结果

  • 精细操作(RoboTwin 2.0 / LIBERO):不仅在移动场景称王,在纯机械臂操作任务中同样登顶。在 RoboTwin 2.0 中斩获 94.1% 的平均分。

具身智能新里程碑!高德发布ABot-M0.5:首创“移动-操作”统一的“世界-动作模型”,全面刷新移动操作 SOTA图10图13:RoboTwin 2.0 精细操作基准测试结果

  • 在Libero 中也斩获 99.4% 的平均分,超越 π0、Gr00t、Qwen-RobotManip等一众强手。

具身智能新里程碑!高德发布ABot-M0.5:首创“移动-操作”统一的“世界-动作模型”,全面刷新移动操作 SOTA图11图14:LIBERO 基准测试结果对比

  • 文章也做了消融实验证实了“中间潜在动作”、“动作解耦”和“Dream Forcing”缺一不可,共同构筑了模型强大的性能基石。

真机效果更是令人振奋!在极具挑战的物理部署中,ABot-M0.5 展现了极高的数据效率——仅需 50 条真实演示数据,部署于 Agilex Piper 机械臂后,在要求极高空间精度的“圆柱体插入”精细任务中斩获 70% 成功率(远超π0.5的50%和FastWAM的30%);在“整理水果”等长程多步任务中更是达到了 80% 的惊人成功率。它彻底告别了传统模型在长程任务中“走一步错一步”的尴尬,证明了其从虚拟梦境走向物理现实的强大泛化能力。

具身智能新里程碑!高德发布ABot-M0.5:首创“移动-操作”统一的“世界-动作模型”,全面刷新移动操作 SOTA图12图8:真实机器人部署效果

具身智能新里程碑!高德发布ABot-M0.5:首创“移动-操作”统一的“世界-动作模型”,全面刷新移动操作 SOTA图13

图9:花瓶放置

具身智能新里程碑!高德发布ABot-M0.5:首创“移动-操作”统一的“世界-动作模型”,全面刷新移动操作 SOTA图14

图10:整理水果

具身智能新里程碑!高德发布ABot-M0.5:首创“移动-操作”统一的“世界-动作模型”,全面刷新移动操作 SOTA图15

图11:挂杯

🚀 结语:从“感知”到“预见”的范式跃迁

ABot-M0.5 的发布证明了一个重要事实:通用具身智能的飞跃,不仅依赖于数据规模的暴力堆叠,更源于对“预测-抽象-控制”底层逻辑的系统性重构。

通过让机器人学会在“梦境”中推演未来,并在现实中精准执行,ABot-M0.5 正在为我们推开真正“全能管家”时代的大门。

🔗 论文全称ABot-M0.5: Unified Mobility-and-Manipulation World Action Model

🔗 论文链接:https://arxiv.org/html/2607.00678v1

🔗 Github链接https://github.com/amap-cvlab/ABot-Manipulation/tree/main

注:代码与模型权重即将开源,敬请期待!

本文仅做学术分享,如有侵权,请联系删文。

具身智能新里程碑!高德发布ABot-M0.5:首创“移动-操作”统一的“世界-动作模型”,全面刷新移动操作 SOTA图16具身智能新里程碑!高德发布ABot-M0.5:首创“移动-操作”统一的“世界-动作模型”,全面刷新移动操作 SOTA图17具身智能新里程碑!高德发布ABot-M0.5:首创“移动-操作”统一的“世界-动作模型”,全面刷新移动操作 SOTA图18具身智能新里程碑!高德发布ABot-M0.5:首创“移动-操作”统一的“世界-动作模型”,全面刷新移动操作 SOTA图19

添加微信:cv3d001,备注:姓名+方向+单位,邀请入群。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
曝贾扬清离开英伟达!公司去年48亿卖身
OpenAI为何“造芯”?AI巨头苦英伟达久矣,闪存巨头又要赢麻了
百T争霸:博通、思科、英伟达、迈威,进入102.4T交换芯片时代
英伟达年度「最危险」论文!AI自繁衍代码,无限刷级进化
算力货币化元年:英伟达股东大会揭示AI产业底层逻辑剧变
英伟达黄仁勋:优先考虑国家利益
从网络视角看英伟达Vera Rubin NVL72的变化
英伟达开始搞机器人自己研究机器人那套了…
辛顿、李飞飞、台积电投资!英伟达谷歌大牛组队造芯,估值340亿
刚刚!OpenAI 自己造芯片了:Jalapeño 推理芯片成本省一半,剑指英伟达
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号