点击下方卡片,关注“具身智能之心”公众号
通用具身操作模型的竞争,正在从“谁的总分更高”,走向“谁的能力结构更完整”。
近日,EBench Generalist Test 榜单更新。Qwen-RobotManip 在测试集中取得 45.6% Test SR 与 60.8% Test Score,在当前已评测模型中排名第一。相比 LingBot-VA,Qwen-RobotManip 在 Test SR 和 Test Score 上分别领先约 14.7 与 13.1 个百分点。

EBench榜单
这次结果值得关注的地方,不只在于 Qwen-RobotManip 刷新了榜单成绩,更在于 EBench 的多维诊断能够进一步回答:模型究竟强在哪里?哪些能力已经相对稳定?哪些能力仍是下一阶段瓶颈?
技术报告:https://arxiv.org/pdf/2606.18239
项目开源地址:https://github.com/InternRobotics/EBench
评测集 Hugging Face 下载:https://huggingface.co/datasets/InternRobotics/EBench-Dataset
评测集 ModelScope 下载:https://modelscope.cn/datasets/InternRobotics/EBench-Dataset
在线仿真评测平台:https://internrobotics.shlab.org.cn/eval
01.
从单一成功率到五维能力画像
在通用机器人操作评测中,仅看平均成功率很容易掩盖模型真实能力结构。一个模型可能在短程、低精度、固定桌面任务上表现很好,但在移动操作、长程任务、高精度接触或长尾场景中迅速退化。
EBench 的核心设计之一,是将具身操作能力拆解为 Operating Mode、Horizon、Precision、Atomic Skill、Scene 五个维度,而不是只用一个总分评价模型。这使得榜单结果不只回答“谁排第一”,也能解释模型优势来自哪里、短板出现在哪里。

Qwen-RobotManip 在操作模式、任务长度和精度维度上表现出强劲性能,而高精度操控仍然具有挑战性
02.
Qwen-RobotManip:
不是单点冲高,而是能力结构更完整
从整体结果看,Qwen-RobotManip 的领先并非由单一任务类型拉动。
在 Operating Mode 维度上,Qwen-RobotManip 在移动操作中达到 43.8% SR,说明其在需要结合移动、观察与操作的任务中具备较好的综合执行能力;同时,它在固定场景下的精细操作中也达到 50.0% SR,位于当前模型前列。
任务时间尺度上的结果进一步补充了这一观察。Qwen-RobotManip 同时刷新了短程和长程任务表现,其中 Short Horizon 达到 50.2% SR,Long Horizon 达到 33.1% SR。短程任务更能反映模型对目标、动作和局部状态的即时响应能力;长程任务则会放大目标保持、步骤衔接和误差累积问题。Qwen-RobotManip 在两类任务中同步提升,说明本次领先并不是依靠“更容易完成的短任务”拉高总分,而是在更完整的任务链条上也体现出较稳定的执行能力。
在 Precision 维度上,Qwen-RobotManip 的提升主要集中在低、中精度任务,分别达到 50.6% SR 和 50.2% SR。这表明其在需要一定操作精度和接触稳定性的任务中表现较好。不过,高精度操控仍然是明显挑战。Qwen-RobotManip 在 High Precision 上达到 18.8% SR,虽高于大多数 baseline,但低于 LingBot-VA 的 27.5% SR。这说明不同模型的能力结构并不完全一致,高精度接触、插入和细粒度控制仍是当前通用操作模型的重要瓶颈。
03.
原子技能与场景:
日常操作覆盖更广,长尾能力仍待突破
更细粒度的 Atomic Skill 结果显示,Qwen-RobotManip 在 Flip、Pour、Press、Handover、Grasp、Place、Move 等多类技能上取得领先或接近领先,体现出较广的日常操作技能覆盖。尤其在 Flip、Pour、Press、Handover 等技能上,Qwen-RobotManip 与其他模型拉开了较明显差距。
与此同时,这一维度也揭示了清晰的短板:Qwen-RobotManip 在 Pull、Push、Sweep、Insert 等技能上并非最优。其中,Pull 上 Pi0 表现更好,Push 上 XVLA 指标更优,Sweep 上 InternVLA-A1 得分最高,Insert 则是 LingBot-VA 表现更好。
这种技能覆盖也反映到场景表现中。Qwen-RobotManip 在 Home Bathroom、Home Living Room、Home Study、Home Dining Room 等家庭场景中表现较好,说明其在生活类场景中的任务适应性较强。但在 Industrial、Logistics 等非家庭场景中,Qwen-RobotManip 的优势并不稳定;尤其 Logistics 场景中,各模型整体表现仍然很低,反映出长尾场景和非家庭场景仍有较大提升空间。


Qwen-RobotManip 在原子操作技能和家庭场景上的覆盖更广,而部分原子技能和长尾场景仍具有挑战性
综合五个维度来看,本次结果显示,Qwen-RobotManip 不仅取得总分领先,也在移动操作、固定操作、长短程任务、低/中精度操作、多类原子技能和多个家庭场景中呈现出更均衡的整体表现。与此同时,高精度操作、Pull / Push / Sweep / Insert 等特定原子技能,以及工业、物流场景,也标出了下一阶段需要继续突破的能力边界。
04.
泛化能力:四类扰动下几乎无明显退化
除了任务类型,EBench 还重点考察模型在不同分布变化下的泛化能力。
本次结果显示,Qwen-RobotManip 在 Background、Instruction、Object、Mix 四类泛化设置中表现较为均衡,分别达到约 45.3%、45.3%、44.5% 和 46.8%。相比部分基线在 Object 或 Mix 扰动下出现明显下降,Qwen-RobotManip 在四类扰动之间波动很小,说明其表现并不集中在单一变化类型上,而是在背景变化、指令改写、物体替换和组合扰动下都保持了相对稳定的任务完成能力。

Qwen-RobotManip 在 Background、Instruction、Object 和 Mix 四类扰动下均表现稳定
在这一维度上,Qwen-RobotManip 与 LingBot-VA 呈现出不同的能力结构。LingBot-VA 在 Background 和 Instruction 上表现较强,分别达到 38.5% 和 39.2%,但在 Object 和 Mix 上下降到 21.7% 和 21.1%,说明其对物体替换和组合扰动仍较敏感。相比之下,Qwen-RobotManip 的泛化曲线更平坦,显示出更稳定的分布外适应能力。此外,Pi0.5 的泛化表现也相对均衡,但整体水平仍低于 Qwen-RobotManip。
05.
任务级热力图:日常操作提升明显,长尾难题仍未解决
从任务级热力图看,Qwen-RobotManip 在多个移动与日常操作任务中达到或超过现有基线,尤其是在需要物体识别、抓取、移动、放置、翻转、倾倒和多阶段执行的任务上表现较好。这与前文五维诊断中的观察一致:Qwen-RobotManip 的提升更多体现在日常操作技能和家庭场景覆盖上。
与此同时,EBench 的任务级诊断也显示,当前模型在 shop、bottle 等任务中仍有较大提升空间,这两个任务中所有模型,包括 Qwen-RobotManip 和 LingBot-VA,仍几乎为 0。部分任务如 collect_coffee_beans、pen 等也仍处于较低水平。
值得注意的是,LingBot-VA 在 microwave、peg_in_hole、flip_cup_collect_cookies 等任务上体现出一定差异化优势,说明不同模型仍存在明显互补性。高精度、长尾、细粒度桌面操作,以及部分长程移动任务,仍是现有模型需要持续突破的方向。

任务级热力图对比:Qwen-RobotManip 在多个日常操作任务上取得提升,但高精度和长尾任务仍存在挑战
关于 EBench
EBench 是面向通用具身操作模型的多维评测平台,覆盖长程任务、精细操作与移动操作。区别于仅以整体成功率衡量模型表现的传统评测基准,EBench 面向模型研发中的可复现评测、能力诊断与泛化分析需求,构建了标准化任务库、多维标签体系、训测隔离机制和在线评测平台。
当前,EBench 包含 26 种任务、510 条测试数据,能够从场景、原子技能、任务时长、操作精度和操作模式五个维度生成能力画像,并围绕物体、背景、指令和组合扰动四类分布外情境评估模型泛化能力。
EBench 已开源分布式评测工具,支持 8 卡 4090 在 30 分钟内完成验证集评测,实现快速迭代;同时提供 7×24 小时在线评测平台,所有提交均基于可复现的标准化协议执行。每次测试完成后,评测工具能够自动生成结构化诊断报告,包含五维能力画像、训练集到测试集的能力迁移曲线、泛化维度雷达图及任务级热力图。
此外,EBench 通过严格的物体级训测隔离机制,进一步区分模型是在真正泛化,还是仅仅适应已知分布。其验证集同时包含已见任务 Validation-Train 与未见任务 Validation-Unseen,测试集则作为隔离评测集合,用于在分布外情境中考察模型对新物体、新场景和新任务组合的真实适应能力。
在这一标准化隔离机制下,有无大规模预训练的模型在 EBench 上呈现出更明显的性能差异;而在 LIBERO、RoboTwin 2.0 等既有评测基准中,这种差异并不显著。这表明,EBench 能够更敏感地捕捉预训练对通用具身操作能力的影响,为研究者分析模型泛化边界和预训练收益提供更具诊断价值的评测依据。
