点击下方卡片，关注【Xbotics具身智能实验室】公众号

更多具身干货，欢迎加入（戳我）

👉具身智能学习资料汇总：https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-Guide

👉具身智能求职/实习信息汇总：https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-AI-Job

你想要的这里都有~~

机器人操作模型正在进入一个新的评测阶段：不仅要看模型能不能完成任务，还要看它能否在不同操作模式、不同任务长度、不同精度要求和不同场景中稳定完成任务。

近日，EBench Generalist Test 榜单更新。Qwen-RobotManip 在测试集中取得 45.6%Test SR 与 60.8% Test Score，在当前已评测模型中排名第一。相比 LingBot-VA，Qwen-RobotManip 在 Test SR 和 Test Score 上分别领先约 14.7 与 13.1 个百分点。

Qwen-RobotManip 登顶 EBench：多维评测工具助力能力诊断图1

EBench榜单

对于机器人操作模型来说，这一结果的意义不只是“总分第一”。更重要的是，EBench 的多维评测显示，Qwen-RobotManip 在移动操作、固定操作、长短程任务、低/中精度操作、多个日常原子技能和家庭场景中都表现出较好的稳定性。这意味着模型能力正在从单点任务表现，逐步走向更完整的机器人操作能力结构。

同时覆盖移动操作与固定操作

真实机器人任务往往不是单一桌面动作。机器人可能需要先移动到目标附近，观察环境，识别物体，再完成抓取、放置、倾倒、按压或交接等操作。因此，仅评估静态桌面任务，已经很难完整反映通用操作模型的能力。

Qwen-RobotManip 登顶 EBench：多维评测工具助力能力诊断图2

Qwen-RobotManip 在操作模式、任务长度和精度维度上表现出强劲性能，而高精度操控仍然具有挑战性

在 EBench 的 Operating Mode 维度上，Qwen-RobotManip 在移动操作中达到 43.8% SR，说明其在需要结合移动、观察与操作的任务中表现较好；同时，它在固定场景下的精细操作中达到 50.0% SR，也处于当前模型前列。

这表明，Qwen-RobotManip 的领先不是只来自某一类固定桌面任务，而是在移动操作和固定操作两种典型机器人任务形态中都具备相对稳定的执行能力。

长短程任务同步提升，说明不只会做“短任务”

在机器人任务中，短程任务通常更依赖即时感知和局部动作控制；长程任务则更考验目标保持、步骤衔接和误差累积控制。很多模型可以在短任务中表现不错，但一旦任务变长，就容易出现目标漂移、动作中断或前后步骤不一致的问题。

EBench 结果显示，Qwen-RobotManip 在短程与长程任务上均取得当前较优表现：Short Horizon 达到 50.2% SR，Long Horizon 达到 33.1% SR。

这说明本次榜单领先并不是依靠短任务拉高平均分，而是在更长的任务链条中也体现出了一定稳定性。对于真实机器人部署而言，这一点尤为关键，因为实际任务通常不是单步动作，而是由多个子动作连续组成。

日常操作技能覆盖更广，但高精度仍是瓶颈

从原子技能看，Qwen-RobotManip 在 Flip、Pour、Press、Handover、Grasp、Place、Move 等多类日常操作技能上取得领先或接近领先。尤其在 Flip、Pour、Press、Handover 等技能上，Qwen-RobotManip 与其他模型拉开了较明显差距。

这些技能对应的是机器人在家庭、服务和日常辅助场景中经常需要完成的基础操作，例如翻转物体、倾倒容器、按压开关、递交物品、抓取和放置物体等。Qwen-RobotManip 在这些技能上的优势，说明其对日常操作任务具有较好的覆盖能力。

不过，EBench 也显示，高精度和细粒度接触仍然是当前模型的主要瓶颈。在 Precision 维度上，Qwen-RobotManip 在 Low Precision 和 Medium Precision 上分别达到 50.6% SR 和 50.2% SR，但在 High Precision 上为 18.8% SR。这一成绩虽然高于大多数 baseline，但低于 LingBot-VA 的 27.5% SR。

与此同时，Qwen-RobotManip 在 Pull、Push、Sweep、Insert 等原子技能上并非最优。其中，Pull 上 Pi0 表现更好，Push 上 XVLA 指标更优，Sweep 上 InternVLA-A1 得分最高，Insert 则是 LingBot-VA 表现更好。

这说明，在更贴近真实物理接触的任务中，例如推拉、清扫、插入、对齐和精细控制，不同模型仍有明显差异，也存在较强互补性。

Qwen-RobotManip 登顶 EBench：多维评测工具助力能力诊断图3

Qwen-RobotManip 登顶 EBench：多维评测工具助力能力诊断图4

Qwen-RobotManip 在原子操作技能和家庭场景上的覆盖更广，而部分原子技能和长尾场景仍具有挑战性

家庭场景表现更好，工业与物流场景仍具挑战

从场景维度看，Qwen-RobotManip 在 Home Bathroom、Home Living Room、Home Study、Home Dining Room 等家庭场景中表现较好，说明其对生活类任务有较强适应性。

但在 Industrial、Logistics 等场景中，Qwen-RobotManip 的优势并不稳定。尤其在 Logistics 场景中，各模型整体表现仍然很低。这反映出一个重要趋势：当前通用机器人操作模型在家庭和日常物体任务上进展较快，但在工业、物流等长尾场景中仍有明显提升空间。

这些非家庭场景通常涉及更复杂的物体形态、更严格的空间约束、更高的动作精度，以及更多任务组合方式，因此也更容易暴露模型在泛化和物理交互方面的短板。

四类扰动下表现稳定，泛化曲线更平坦

除了具体任务类型，EBench 还评估模型在分布变化下的泛化能力，包括 Background、Instruction、Object、Mix 四类扰动。

结果显示，Qwen-RobotManip 在四类设置中表现较为均衡，分别达到约 45.3%、45.3%、44.5% 和 46.8%。相比部分基线在 Object 或 Mix 扰动下出现明显下降，Qwen-RobotManip 的表现波动很小，说明其并不依赖单一变化类型，而是在背景变化、指令改写、物体替换和组合扰动下都保持了相对稳定的任务完成能力。

Qwen-RobotManip 登顶 EBench：多维评测工具助力能力诊断图5

Qwen-RobotManip 在 Background、Instruction、Object 和 Mix 四类扰动下均表现稳定

与之相比，LingBot-VA 在 Background 和 Instruction 上表现较强，分别达到 38.5% 和 39.2%，但在 Object 和 Mix 上下降到 21.7% 和 21.1%。这说明 LingBot-VA 对物体替换和组合扰动仍较敏感，而 Qwen-RobotManip 的泛化曲线更加平坦。

对于机器人系统而言，这种稳定泛化能力非常关键。真实环境中，背景、物体、指令表达和任务组合方式经常变化，如果模型只适应固定分布，就很难在开放环境中稳定执行。

任务级观察：日常任务提升明显，长尾问题仍未解决

从任务级热力图看，Qwen-RobotManip 在多个移动与日常操作任务中达到或超过现有基线，尤其是在需要物体识别、抓取、移动、放置、翻转、倾倒和多阶段执行的任务上表现较好。

但当前模型仍有大量长尾难题尚未解决。例如在 shop、bottle 等任务中，所有模型，包括 Qwen-RobotManip 和 LingBot-VA，仍几乎为 0；部分任务如 collect_coffee_beans、pen 等也仍处于较低水平。

此外，LingBot-VA 在 microwave、peg_in_hole、flip_cup_collect_cookies 等任务上体现出一定差异化优势。这说明，当前通用机器人操作模型还没有形成对所有任务类型的统一优势，高精度、长尾、细粒度桌面操作，以及部分长程移动任务，仍将是后续研究和系统迭代的重点。

Qwen-RobotManip 登顶 EBench：多维评测工具助力能力诊断图6

任务级热力图对比：Qwen-RobotManip 在多个日常操作任务上取得提升，但高精度和长尾任务仍存在挑战

EBench：面向通用机器人操作的多维评测平台

EBench 是面向通用具身操作模型的多维评测平台，覆盖长程任务、精细操作与移动操作。与仅以整体成功率衡量模型表现的传统评测不同，EBench 更强调模型研发中的可复现评测、能力诊断与泛化分析。

当前，EBench 包含 26 种任务、510 条测试数据，能够从场景、原子技能、任务时长、操作精度和操作模式五个维度生成能力画像，并围绕物体、背景、指令和组合扰动四类分布外情境评估模型泛化能力。

EBench 已开源分布式评测工具，支持 8 卡 4090 在 30 分钟内完成验证集评测，并提供 7×24 小时在线评测平台。每次测试完成后，评测工具能够自动生成结构化诊断报告，包括五维能力画像、训练集到测试集的能力迁移曲线、泛化维度雷达图和任务级热力图。

通过这些诊断结果，模型开发者可以快速判断短板来自移动操作还是桌面精细控制，来自新物体泛化还是长程规划，从而更有针对性地推进模型迭代。

Ask Me Anything｜提问箱

❝
对文章有疑惑，或想聊更深？欢迎把你的问题丢给我们：技术方案、实操踩坑、课程与资料、项目合作、职业发展，都可以问。
怎么问：在评论区留言，或私信公众号
我们会做什么：每周集中整理高质量问题并公开回复，重点问题邀请作者或嘉宾深度解答；典型问题会加入知识库并持续更新。
提问小提示：尽量说明「你的目标—当前做法—期望产出」，附上必要信息（硬件/软件版本、数据规模等），能更快获得有用答案。
一起把问题变成知识，推动社区进步 🚀