具身智能新里程碑！高德发布ABot-M0.5：首创“移动-操作”统一的“世界-动作模型”，全面刷新移动操作 SOTA

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

作者供稿直发 | 编辑：3D视觉工坊

【导语】 通用机器人的终极考验，在于能否在复杂多变的物理世界中实现“边走边操作”（Mobile Manipulation）。今日，备受瞩目的具身智能最新成果 ABot-M0.5 正式发布。本文工作由高德地图 AMap-CV 实验室完成，是 ABot-Manipulation 系列继 ABot-M0 之后的又一重要续作。作为全新的统一世界-动作模型（Unified World Action Model, WAM），ABot-M0.5 以前所未有的架构创新，一举攻克了移动操作中“预测与控制脱节”的行业痛点，在 RoboCasa365、RoboTwin 2.0 等顶级基准测试中全面超越 π0、GR00T-N1.5 等知名基线，刷新了长程任务与细粒度控制的 SOTA 纪录。

具身智能新里程碑！高德发布ABot-M0.5：首创“移动-操作”统一的“世界-动作模型”，全面刷新移动操作 SOTA图1 图1：ABot-M0.5 统一移动操作的世界-动作模型（WAM）整体架构与效果示意

🚨 行业痛点：当“世界模型”遇上“移动操作”

近年来，视觉-语言-动作模型（VLA）在机械臂操作中表现出色，但它们本质上是“反应式”的，缺乏对物理世界演化的显式预测能力。为了赋予机器人“预见未来”的能力，研究界引入了世界动作模型（WAM）。

然而，当 WAM 直接应用于移动操作时，却遭遇了严重的水土不服，暴露出三大结构性瓶颈：

粒度错位：宏观的视频预测过于粗糙，无法直接映射到微观的电机级精细控制。
动作耦合：底盘的“移动”与机械臂的“操作”频率和物理特性截然不同，混合预测会导致严重的梯度干扰。
训练-推理鸿沟：传统的训练方式（Teacher Forcing）让模型在“完美”的 ground-truth 视频下学习，一旦在真实自回归推理中产生微小误差，就会引发灾难性的误差累积。

具身智能新里程碑！高德发布ABot-M0.5：首创“移动-操作”统一的“世界-动作模型”，全面刷新移动操作 SOTA图2 图2：ABot-M0.5 模型架构示意

💡 核心突破：ABot-M0.5 的“三大法宝”

为了彻底打破这些瓶颈，ABot-M0.5 基于 Wan2.2 视频扩散骨干网络，提出了一套系统性的工程解法，实现了从“未来预测”到“动作抽象”再到“硬件控制”的三级火箭式级联：

1. 中间潜在动作（Intermediate Latent Actions）：搭建时空桥梁 ABot-M0.5 创造性地引入了“帧级潜在动作”作为中间层。它就像一位“翻译官”，将粗粒度的视频潜在状态转化为与具身硬件无关的运动意图，完美弥合了世界模型与底层控制之间的时间粒度鸿沟。

具身智能新里程碑！高德发布ABot-M0.5：首创“移动-操作”统一的“世界-动作模型”，全面刷新移动操作 SOTA图3 图2：中间潜在动作架构示意

2. 双层混合 Transformer（Dual-level MoT）：动作空间的“分轨”解耦 针对移动和操作的异质性，模型设计了独特的 D-MoT 架构。在模态层面，为视频、潜在动作和可执行动作分配独立的投影与输出头；在动作层面，将底盘移动（Mobility）和机械臂操作（Manipulation）强制分配到不同的 Transformer 子塔中。这种“分轨”设计彻底消除了高频操作信号对低频移动信号的干扰，让机器人“走”得更稳，“抓”得更准。

具身智能新里程碑！高德发布ABot-M0.5：首创“移动-操作”统一的“世界-动作模型”，全面刷新移动操作 SOTA图4 图3：双层混合 Transformer（D-MoT）结构

3. 梦境强制（Dream Forcing）：打破温室，直面真实 这是 ABot-M0.5 最具启发性的训练范式创新。它摒弃了依赖真实视频帧的传统训练，转而使用模型自己“做梦”预测出的视频（哪怕带有瑕疵）来训练动作预测器。这种机制让模型在训练阶段就习惯了自回归推理中的误差，从根本上解决了长程任务中的误差累积问题，大幅提升了部署鲁棒性。

具身智能新里程碑！高德发布ABot-M0.5：首创“移动-操作”统一的“世界-动作模型”，全面刷新移动操作 SOTA图5 图4：Dream Forcing 训练机制示意

具身智能新里程碑！高德发布ABot-M0.5：首创“移动-操作”统一的“世界-动作模型”，全面刷新移动操作 SOTA图6 图5：Dream Forcing 训练机制示意（续）

🔋 从“预训练”到“真机部署”：三阶段训练与可视化揭秘

ABot-M0.5 的强悍性能，源于其精心设计的三阶段渐进式训练范式，让模型真正完成了从“看懂世界”到“掌控物理”的蜕变：

世界模型预训练（World Model Pre-training）：模型首先在海量视频数据中进行预训练，学习物理世界的时空演化规律，构建出强大的“物理直觉”；
潜在动作预训练（Latent Action Pre-training）：通过自监督学习提取帧级运动表征，将宏观的视频变化转化为微观的动作意图；
渐进式监督微调（Progressive SFT）：模型先基于真实视频帧进行联合微调，随后无缝切换至“梦境强制”模式，让模型在自己预测的未来画面中训练动作，彻底抹平训练与推理的鸿沟。

具身智能新里程碑！高德发布ABot-M0.5：首创“移动-操作”统一的“世界-动作模型”，全面刷新移动操作 SOTA图7 图6：注意力掩码可视化

在可视化方面，论文展示的注意力热力图（Attention Maps） 直观印证了这一进化过程：从预训练初期的“四处张望”，到微调后精准锁定任务核心区域，模型的“视觉焦点”变得极其敏锐。同时，在 RoboCasa365 上的生成轨迹可视化更是惊艳，模型“梦境”中推演的移动与操作画面（通过黄绿双色清晰区分底盘移动与机械臂操作）与真实物理规律高度契合，真正做到了“所思即所见”。

具身智能新里程碑！高德发布ABot-M0.5：首创“移动-操作”统一的“世界-动作模型”，全面刷新移动操作 SOTA图8 图7：预训练注意力热力图效果对比

🏆 战绩斐然：全面制霸各大顶级 Benchmark

ABot-M0.5 的架构优势在严苛的实验中得到了充分验证：

移动操作（RoboCasa365）：在极具挑战的家庭场景长程任务中，ABot-M0.5 取得了 40.3% 的平均成功率，大幅领先 GR00T-N1.5 (23.9%)、RLDX-1 (36.0%) 和 Qwen-RobotManip (35.9%)。在额外加了压缩记忆机制后（ABot-M0.6），甚至高达**46.6%**，超越其他模型10+%的准确率。

具身智能新里程碑！高德发布ABot-M0.5：首创“移动-操作”统一的“世界-动作模型”，全面刷新移动操作 SOTA图9 图12：RoboCasa365 移动操作基准测试结果

精细操作（RoboTwin 2.0 / LIBERO）：不仅在移动场景称王，在纯机械臂操作任务中同样登顶。在 RoboTwin 2.0 中斩获 94.1% 的平均分。

具身智能新里程碑！高德发布ABot-M0.5：首创“移动-操作”统一的“世界-动作模型”，全面刷新移动操作 SOTA图10 图13：RoboTwin 2.0 精细操作基准测试结果

在Libero 中也斩获 99.4% 的平均分，超越 π0、Gr00t、Qwen-RobotManip等一众强手。

具身智能新里程碑！高德发布ABot-M0.5：首创“移动-操作”统一的“世界-动作模型”，全面刷新移动操作 SOTA图11 图14：LIBERO 基准测试结果对比

文章也做了消融实验证实了“中间潜在动作”、“动作解耦”和“Dream Forcing”缺一不可，共同构筑了模型强大的性能基石。

真机效果更是令人振奋！在极具挑战的物理部署中，ABot-M0.5 展现了极高的数据效率——仅需 50 条真实演示数据，部署于 Agilex Piper 机械臂后，在要求极高空间精度的“圆柱体插入”精细任务中斩获 70% 成功率（远超π0.5的50%和FastWAM的30%）；在“整理水果”等长程多步任务中更是达到了 80% 的惊人成功率。它彻底告别了传统模型在长程任务中“走一步错一步”的尴尬，证明了其从虚拟梦境走向物理现实的强大泛化能力。

具身智能新里程碑！高德发布ABot-M0.5：首创“移动-操作”统一的“世界-动作模型”，全面刷新移动操作 SOTA图12 图8：真实机器人部署效果