具身智能迎来ImageNet时刻:RoboChallenge开放首个大规模真机基准测试集

机器之心 2025-10-15 18:44
机器之心发布

机器之心编辑部



近日,RoboChallenge 重磅推出!这是全球首个大规模、多任务的在真实物理环境中由真实机器人执行操作任务的基准测试。


通过科学的评估体系构建一个开放、公正、可复现的「真实考场」,克服真实环境下的性能验证、标准化测试条件、公开可访问测试平台等关键挑战,RoboChallenge 可为视觉-语言-动作模型(VLAs)在机器人的实际应用提供更加可靠和可比较的评估标准,推动具身智能从「实验室智能」走向「现实世界智能」。据知,RoboChallenge 由 Dexmal 原力灵机联合 Hugging Face 共同发起。


具身智能迎来ImageNet时刻:RoboChallenge开放首个大规模真机基准测试集图1



全球首个大规模多任务的真机基准测试平台


机器人正逐步融入现实世界,但目前仍缺乏统一、开放且可复现的基准测试方法,难以衡量技术进展或公平比较不同方法的优劣。改变这一现状需要构建一个大规模多任务的具身智能真机测试集,使得研发人员在统一环境中验证对比机器人算法,实现从基础任务到复杂现实应用场景的全面覆盖。


具身智能迎来ImageNet时刻:RoboChallenge开放首个大规模真机基准测试集图2


在此背景下,RoboChallenge 应运而生。这一开放式机器人基准测试平台通过集成多款主流机器人(UR5、Franka Panda、Aloha、ARX-5)实现远程评测,为研究社区提供大规模、标准化、可复现的测试环境,推动具身智能算法在公平、可靠的基准下持续进步。



机器人选型


为精准评估 VLA 算法核心能力,RoboChallenge 首期采用配备夹爪的机械臂作为标准化平台,未来会支持更多执行器类型。在感知方面,传感方案同步输出多视角 RGB 与对齐深度信息,以利于二维识别与三维推理需求,将来计划集成力控或触觉传感器。


机器人选型坚持高可靠性与学术通用性原则,最终在第一个测试集中集成 UR5、Franka Panda、COBOT Magic Aloha 及 ARX-5 四类主流机型,确保系统具备 7×24 小时持续运行能力,为社区提供稳定可复现的基准评测服务。


远程机器人测试


具身智能迎来ImageNet时刻:RoboChallenge开放首个大规模真机基准测试集图3


RoboChallenge 通过创新的「远程机器人」方法,为学术界和产业界提供高精度、易用、免费的在线机器人测试服务。该平台最大的特点之一是以云端化服务突破机器人测试的硬件资源限制,实现「没有机器人,一样做实验」的效果,为具身智能研究提供高效、可靠的算法验证环境。



基准测试方法


为建立严谨可靠的机器人算法(尤其是 VLAs)评估体系,RoboChallenge 在设计基准测试方法时重点关注人为因素控制、视觉一致性保证、模型鲁棒性验证以及不同评估目标的协议设计。


为此,RoboChallenge 创新性地提出「视觉输入匹配」(visual inputs reproduction)方法:从演示数据中抽取参考图像,并实时叠加于测试画面。测试人员通过调整物体位置使实时场景与参考图像完全吻合,确保每次测试的初始状态一致。该方法不仅降低了测试人员的技术门槛,其稳定性甚至优于依赖经验人员的传统模式,为大规模评测提供了可扩展的解决方案。


最大规模真机测试集,小舞台上的大考验


Table30 是 RoboChallenge 的首套桌面操作基准测试集,包含 30 个精心设计的日常情境任务,相比之下,行业内真机竞赛或评测的任务数量一般仅为 3-5 个;这些任务由位置固定的双手或单臂机器人执行;通过科学的任务设计与评估体系,Table30 为机器人算法发展提供可靠衡量标准,系统地评估算法在多维度场景下的泛化能力。


具身智能迎来ImageNet时刻:RoboChallenge开放首个大规模真机基准测试集图4



具身智能迎来ImageNet时刻:RoboChallenge开放首个大规模真机基准测试集图5


通过对主流开源 VLA 模型算法进行测试,结果显示最新发布的 Pi0.5 相较其他模型取得显著优势,但也无法在所有任务上都取得较高的成功率。由此可见:RoboChallenge 基准测试可以作为迈向通用机器人技术的必要性检验。


模型提交


具身智能迎来ImageNet时刻:RoboChallenge开放首个大规模真机基准测试集图6


RoboChallenge 参与者提交模型至测试平台的标准流程包含四个核心环节。



构建协同创新社区


RoboChallenge 坚持全面开放原则,向全球研究者免费提供评测服务,并公开所有任务演示数据及测试中间结果,确保研究的可复现性与透明度。后续,RoboChallenge 将通过举办挑战赛、研讨会及数据共享,积极推动社区共建,鼓励研究者参与任务设计与优化,共同推进具身智能核心问题的解决。此外,平台还提供多维度细分排行榜,支持算法性能的深度分析。


迈向通用机器智能


RoboChallenge 不仅是大规模真实评测的基础设施,更是推动具身智能建立科学导向、加速落地实用化的重要引擎;未来,RoboChallenge 会持续引入移动机器人、灵巧操作装置等更多硬件平台,拓展跨场景任务测试能力;评测维度将从视觉-动作协调延伸至多模态感知、人机协作等方向,并计划推出动态环境适应、长期规划等更具挑战性的基准测试,助力具身智能在真实物理环境中创造价值。


Join RoboChallenge, This Is Your Opportunity To Shine!


RoboChallenge 全球首发同时还有两场相关主题的重磅直播,欢迎预约观看!




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
测试
more
先进封装测试与良率提升:4位专家的深度研讨和分享
Archer飞行器创下7000英尺最高测试飞行海拔高度
《采用脑机接口技术的医疗器械 RACA机器人运动意图编解码性能测试方法》医疗器械行业标准制修订项目正式立项
华硕发布 BIOS 测试版更新,解决 ROG 笔记本卡顿和性能下降问题
【有奖直播】台式数字多用表在智能产品产线的测试应用
【生活】微信灰度测试“撤回本次发送的全部消息”功能
真我GT8Pro联名理光;微信测试批量撤回;特斯拉最便宜车型来了;2026款吉利星愿即将上市
千万级补贴+免费测试!云南低空经济新政“放大招”
京东物流在四川完成干支线低空物流测试飞行:利用无人机打造“空空接力”
消息称 iOS 26.0.2 系统版本正内部测试,可能会在不久后推送
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号