具身走向现实世界!RoboChallenge:从仿真到实体,全球首个大规模多任务真机任务基准

具身智能之心 2025-10-15 19:00

很多做具身的同学一直苦于没有真机做测试,实验室能搞一台真机太不容易,成本高,调试起来麻烦。到论文实验环节的时候还要和其它真机平台对比,总是受限。如果能有一个多真机多任务的验证平台就好了,近日,具身智能公司Dexmal原力灵机和Hugging Face共同发起的RoboChallenge彻底打通了这一卡点,官网提供了 4 种主流机器人(包含UR5、Franka Panda、COBOT Magic Aloha、ARX-5等本体)和30 个多样化任务供大家测试自己的VLA模型,面向全球研究人员免费开放。

具身走向现实世界!RoboChallenge:从仿真到实体,全球首个大规模多任务真机任务基准图1

(一)具身领域缺乏真实开放的评测基准

近两年,具身智能领域获得了飞速的发展,各种算法层出不穷,且已在机器人任务中初见成效。从简单的拾取放置到复杂的双臂协同操作,VLA 模型正逐步向通用机器人控制迈进。但真机测试的缺失与现有评测体系的局限,已成为限制该领域发展的一大卡点,很多具身方向的研究人员和个人开发者都向具身智能之心反应过这个问题。

当前主流的具身仿真评测benchmark(Calvin、Libero 等)主要依赖仿真环境,这些平台虽能实现快速迭代,但一直面临sim2real的问题,模拟器中表现优异的算法在真机上常出现 “落地即失效” 的问题。更重要的是,现有在线评测系统(如 RoboArena、Autoeval)存在明显短板:仅部署 1-2 台机器人、支持少数任务,无法满足 “大规模多模型 + 多任务” 的评测需求;实测中还会存在同一模型的成功率在 0% 到 100% 间波动,严重影响结果的可重复性。

具身智能领域迫切需要一个基于真机、支持大规模任务、评测标准严谨且开放易用的评测基准,而这一空白长期未能被填补。

(二)具身领域的ImageNet时刻,RoboChallenge正式推出

1)Dexmal原力灵机和Hugging Face共同发起

为解决上述痛点,Dexmal原力灵机联合 Hugging Face共同发起了RoboChallenge - 全球首个大规模、多任务的在真实物理环境中由真实机器人执行操作任务的基准测试。

通过科学的评估体系构建一个开放、公正、可复现的『真实考场』,克服真实环境下的性能验证、标准化测试条件、公开可访问测试平台等关键挑战,RoboChallenge为视觉语言动作模型(VLAs)在机器人的实际应用提供更加可靠和可比较的评估标准,推动具身智能从『实验室智能』走向『现实世界智能』。

具身走向现实世界!RoboChallenge:从仿真到实体,全球首个大规模多任务真机任务基准图2
  • 官网:https://robochallenge.ai
  • 论文链接:https://robochallenge.ai/robochallenge_techreport.pdf
  • GitHub:https://github.com/RoboChallenge/RoboChallengeInference
  • Hugging Face:https://huggingface.co/RoboChallengeAI

Dexmal原力灵机联合创始人兼首席执行官唐文斌对话Hugging Face联合创始人Thomas Wolf,共同探讨全球首个大规模基于真机的具身智能评测平台RoboChallenge,聚焦于开源、生态与未来。

具身走向现实世界!RoboChallenge:从仿真到实体,全球首个大规模多任务真机任务基准图3

2)全球首个、大规模多任务真机基准测试平台

机器人正逐步融入现实世界,但目前仍缺乏统一、开放且可复现的基准测试方法,难以衡量技术进展或公平比较不同方法的优劣。改变这一现状需要构建一个大规模多任务的具身智能真机测试集,使得研发人员在统一环境中验证对比机器人算法,实现从基础任务到复杂现实应用场景的全面覆盖。这一年,太多做具身的小伙伴跟我们抱怨过没有真机做测试,这里面不乏很多高校的同学和个人开发者,RoboChallenge正是瞄准具身领域的这个痛点。

区别于现有系统的 “单机器 + 少任务” 模式,RoboChallenge 首次实现了 “10 台真机集群 + 30 个多样化任务” 的大规模评测能力:

  • 系统架构设计:为精准评估VLA算法核心能力,RoboChallenge首期采用配备夹爪的机械臂作为标准化平台,未来会支持更多执行器类型。且部署 4 种主流机器人,覆盖单臂、双臂、移动平台等多种形态,包括 6 自由度的 UR5(配 Robotiq 夹爪)、7 自由度的 Franka Panda、双臂移动平台 Cobot Magic Aloha,以及桌面式 6 自由度 ARX-5 机械臂。这些机器人均配备了2–3台RGB-D 相机(主视角、腕部视角、侧视角),还原真实感知场景。在感知方面,传感方案同步输出多视角RGB与对齐深度信息,以利于二维识别与三维推理需求,将来计划集成力控或触觉传感器。
  • 任务覆盖:如下图所示,初始基准 Table30 包含 30 个围绕固定桌面的任务,涵盖家庭(折叠抹布、开水龙头)、餐厅(整理餐具、倒薯条)、工作场景(插网线、扫描二维码)等,全面测试 VLA 模型的核心能力。
具身走向现实世界!RoboChallenge:从仿真到实体,全球首个大规模多任务真机任务基准图4
  • 基准任务设计:采用端到端任务成功率与过程评分相结合的评估机制;测试集所有任务均提供约1000条演示数据,并已完成基线模型的任务级微调。
  • 开放与可扩展:面向社区开放,支持用户基于公开演示数据微调自有策略并参与评测;发布任务中间数据与评测结果,推动建立透明、公平的算法评估标准。

作为 “全球首个” 真机大规模评测平台,RoboChallenge 打破了 “小规模测试无法反映模型泛化性” 的困境,为 VLA 模型的真实性能验证提供了核心基础设施。

3)没有真机,一样能评测

RoboChallenge 创新采用 “远程机器人(Remote Robot)范式”,彻底降低了评测门槛:用户无需拥有任何机器人硬件,仅需通过在线 API 即可完成模型与真机的交互,这一点对于学术界、工业界甚至是个人开发者都非常友好。

具身走向现实世界!RoboChallenge:从仿真到实体,全球首个大规模多任务真机任务基准图5

RoboChallenge解决了这些最头疼的问题:

  • 用户侧运行模型:无需提交模型权重、Docker 镜像或代码,模型始终在用户本地运行,避免了软件栈(CUDA、Python 版本、框架)不匹配的调试难题,也解决了 NAT 网络下无公网 IP 的访问问题。
  • 低延迟 API 交互:用户通过 API 发送相机捕获请求,获取带精确时间戳的 RGB、深度图像与机器人本体感知数据;同时可将动作(含执行时长)提交至 “动作队列”,机器人按 FIFO 顺序执行,并通过 API 反馈队列长度。这种异步交互支持细粒度控制(如实时动作分块策略),满足复杂算法的需求。

只要拥有模型与网络连接,任何研究者都能参与真机评测,真正实现了 “零硬件门槛”。

4)严谨可靠的评估体系

真机测试中即使使用相同的道具、任务与模型,测试的成功率波动也非常大。测试人员会导致结果差异,即使测试轮次足够多,记录的成功率仍存在显著差异。适应性测试人员(即模型开发人员)的结果最优,无经验测试人员的结果稳定性最差。通过实验发现,他们在测试设置中存在明显偏差,经验丰富的测试人员虽努力提供公平结果,但人类很难精确复现 “分布特征”,这一过程本身存在固有难度。

具身走向现实世界!RoboChallenge:从仿真到实体,全球首个大规模多任务真机任务基准图6

为解决真机测试中 “结果波动大、公平性不足” 的核心痛点,RoboChallenge创新性地提出『视觉输入匹配』(visual inputs)方法:从演示数据中抽取参考图像,并实时叠加于测试画面。测试人员通过调整物体位置使实时场景与参考图像完全吻合,确保每次测试的初始状态一致。该方法不仅降低了测试人员的技术门槛,其稳定性甚至优于依赖经验人员的传统模式,为大规模评测提供了可扩展的解决方案。此外,RoboChallenge 设计了多层级的严谨评估机制:

  • 控制测试者差异:通过 “视觉任务复现” 方法,将演示数据中的 “参考 episode” 初始帧叠加到测试者的实时预览流中,测试者需调整物体位置至与参考帧一致,避免经验型、自适应型测试者的主观偏差(如自适应测试者刻意寻找 “成功 sweet spot”),实验表明该方法的稳定性优于 “经验型测试者” 操作。
  • 多维度评估体系:RoboChallenge从四个关键维度构建评估体系,VLA解决方案难点、机器人类型、任务场景环境和目标物体属性。测试数据表明,即使最先进的基础模型也难以实现全面高分,印证该基准可作为通用机器人算法的『试金石』。
具身走向现实世界!RoboChallenge:从仿真到实体,全球首个大规模多任务真机任务基准图7
  • 区分稳定性与公平性:针对 “同一模型多次测试波动” 问题,设计 “基准协议”(聚焦单模型结果稳定性)与 “比较协议”(聚焦多模型排名公平性,通过随机选择模型、测试者盲测避免偏差),满足不同评测需求。 这套体系确保了评测结果的可重复性(同一模型多次测试波动小)与可比性(不同模型排名客观),为 VLA 模型的性能对比提供了可靠度量。

5)多达30个场景任务测试

RoboChallenge提供了首套桌面操作基准测试集—Table30,包含30个精心设计的日常情境任务,相比之下,行业内真机竞赛或评测的任务数量一般仅为 3-5 个;通过科学的任务设计与评估体系,Table30为机器人算法发展提供可靠衡量标准,系统地评估算法在多维度场景下的泛化能力。完整任务见下表:

具身走向现实世界!RoboChallenge:从仿真到实体,全球首个大规模多任务真机任务基准图8

30 个任务并非随机设计,而是围绕 VLA 模型的 7 大核心能力展开,每个任务对应至少一种关键挑战:

  • 精确 3D 定位:如 “将杯子放在杯垫上”“插网线”,考验模型对物体空间位置的精细理解;
  • 遮挡与多视角融合:部分任务中物体被机器人或其他物品遮挡,需模型融合多相机信息;
  • 时间依赖性:如 “按顺序按三个按钮”,需模型记忆任务进度,区分相同观测在不同阶段的意义;
  • 双臂协同:如 “制作素食三明治”“堆叠碗具”,测试双臂动作的协调能力;
  • 柔性物体处理:如 “折叠抹布”“擦拭桌子”,应对柔性物体的形变问题;
  • 物体识别与分类:如 “分拣绿色盒子”“整理电子产品”,需模型根据物体属性生成不同动作;
  • Long horizon和多阶段:如 “清理餐桌”(分类垃圾、整理餐具),需模型完成多步骤连贯操作。

这些任务覆盖 “简单到困难” 的完整难度梯度,即使当前 SOTA 模型(如π0.5)也无法在所有任务中取得高成功率,为模型的迭代提供了明确的改进方向。

RoboChallenge官方测试了四种主流开源视觉 - 语言 - 动作(VLA)算法,具体如下:

  • π₀:由 Physical Intelligence 公司开源的方法;
  • π₀.₅:π₀的升级版模型;
  • CogACT:微软开源的 VLA 模型;
  • OpenVLA/OFT:基于 OpenVLA 衍生的方法。

一个明显趋势是,性能更强的模型表现显著更优。但不同模型间存在明显差距,π₀.₅比π₀的得分高出近15个点,**但即使是SOTA的π₀.₅,现在的成功率也尚不足50%**。Table30提供的不过是我们日常生活中常见的一些操作任务,未来我们需要更多的有志之士加入其中突破具身VLA的痛点和难点。

具身走向现实世界!RoboChallenge:从仿真到实体,全球首个大规模多任务真机任务基准图9

此外,观察各模型的成功率累积分布曲线可发现,所有曲线的斜率相近,这表明测试任务的难度分布较为均匀。我们预计未来性能更强的模型,其曲线将进一步向 “右上方向” 延伸。

值得关注的是,即便仅使用少量样本(约 50 个任务片段)且混合多任务数据进行训练(下图中“Pi05/multi” 的模型),π₀.₅仍展现出不错的性能;在部分任务上,该模型的分数甚至高于针对单个任务微调的模型。我们认为这是一个积极信号,预示着真正的 “通用模型(generalist models)” 有望在未来出现。

具身走向现实世界!RoboChallenge:从仿真到实体,全球首个大规模多任务真机任务基准图10

6)全面开放,欢迎测试

RoboChallenge坚持全面开放原则,向全球研究者免费提供评测服务,并公开所有任务演示数据及测试中间结果,确保研究的可复现性与透明度,构建了全流程开放的评测生态:

  • 数据开放:所有任务的演示数据(每个任务最多 1000 个 episode)在 Hugging Face 免费下载,支持模型微调;
  • 提交流程简化:用户仅需四步即可完成评测,系统会提前通知任务开始时间,用户无需实时等待;
  • 结果透明:评测完成后,所有结果(成功率、进度分数、机器人运行视频、RRD 格式日志)在官网公开,用户可通过 rerun.io 查看日志,也可观看其他模型的运行视频,促进技术交流,rerun查看示意图如下所示;
具身走向现实世界!RoboChallenge:从仿真到实体,全球首个大规模多任务真机任务基准图11
  • 纠错机制:若用户认为评测结果存在误差,可联系团队重新计算,确保结果公正。

这种 “数据 - 提交 - 结果” 全开放模式,避免了传统评测的 “黑箱问题”,推动具身智能领域的透明化研究。RoboChallenge参与者提交模型至测试平台的标准流程包含四个核心环节。

  • 参与者首先从Hugging Face平台下载结构清晰的任务示范数据集,包含分开放置的视频文件与JSON格式状态数据,并可利用工具脚本转换为LeRobot格式。
  • 随后选择训练模式:通用型模式需使用提示词区分任务并进行多任务联合训练;微调型模式则无特定限制。基于同一基础模型的多个提交可共享显示名称,在排名时合并为单一算法条目。
  • 提交前需对接平台API:通过提供框架代码,演示观察-推理-停止的完整交互逻辑,支持评估前的模型预热与动作队列稳定控制,并配套模拟测试以供验证。提交评估时需注明密钥、任务集及模型名称,多任务提交将视作通用模型处理。
  • 评估请求进入人工调度队列,因场景布置需数小时至数日完成。结果发布后,参与者可通过rerun.io查看器分析RRD格式的机器日志与视频。平台默认公开所有结果以促进交流,若对评分存疑可申请重新计算。

7)RoboChallenge的价值和优势

具身走向现实世界!RoboChallenge:从仿真到实体,全球首个大规模多任务真机任务基准图12

无论你是工业界的算法工程师,还是高校科研院所的研究人员,亦或是个人开发者,只要你在日常工作和研究中需要测试VLA算法的性能,RoboChallenge绝对值得你探索!

8)一些真机demo

官网提供了30个日常真机情境任务,给大家展示几个demo。更多信息可以访问RoboChallenge官网:https://robochallenge.ai。

π₀.₅在Table30上的表现:

测试集锦一览:

(三)欢迎加入RoboChallenge!

Dexmal和Hugging Face推出的RoboChallenge,不仅填补了具身智能领域 “真实开放大规模评测基准” 的空白,更以 “低门槛、高严谨性、全开放” 的特性,为 VLA 模型的发展提供了关键支撑。目前,RoboChallenge 已完成对 π₀、π₀.₅、CogACT 等 SOTA 模型的测试,未来还将扩展更多机器人类型与任务场景。

无论你是科研机构的学者、企业的算法工程师,还是对具身智能感兴趣的开发者,都可通过https://robochallenge.ai参与评测 —— 无需机器人,只需你的模型,即可在真实真机上验证其性能,共同推动具身智能向 “通用机器人控制” 迈进。

未来,RoboChallenge会持续引入移动机器人、灵巧操作装置等更多硬件平台,拓展跨场景任务测试能力;评测维度将从视觉-动作协调延伸至多模态感知、人机协作等方向,并计划推出动态环境适应、长期规划等更具挑战性的基准测试,助力具身智能在真实物理环境中创造价值。目前只是一个开始,RoboChallenge 后续会有Table30 之外的更具挑战性的基准测试,欢迎大家持续关注。

17日Dexmal原力灵机创始团队成员 — 范浩强会为大家来带RoboChallenge全球首发直播:重塑具身智能基准测试,开启真机评测新纪元,欢迎大家扫码预约!

具身走向现实世界!RoboChallenge:从仿真到实体,全球首个大规模多任务真机任务基准图13

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号