拆解全球大规模真机RL数据集:当机器人学会在真实世界里“试错”

Xbot具身知识库 2026-06-10 17:45

点击下方卡片,关注【Xbotics具身智能实验室】公众号


更多具身干货,欢迎加入(戳我)

👉具身智能学习资料汇总:https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-Guide

👉具身智能求职/实习信息汇总:https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-AI-Job

你想要的这里都有~~



模仿学习让机器人站上起跑线,但发令枪响之后呢?

具身智能圈子里有一个不太愿意被公开讨论的事实:很多用遥操作数据训练出来的策略,换一个光照条件、换一个物体摆放角度,表现就断崖式下跌。

不是说模仿学习不重要,它解决了“从0到1”的问题,让机器人第一次把任务跑通了。但“从1到100”——让机器人在真实环境里越做越稳、越做越快——这件事,模仿学习撑不住。

为什么撑不住?因为离线示教数据里没有“错误”。没有偏离目标时的挣扎,没有物体滑落后的人类补救,没有碰撞后的策略调整。训练时没见过这些,部署时碰到了,策略就只能原地发呆或者做出危险动作。

这就是真机强化学习专用数据集的意义,从采集方式到标注字段,都围绕着“可强化”来设计。博登智能、均普和上海交大MINT实验室这次开源的数据集,给行业交了一份答卷:一份能用来做真机RL的数据,到底长什么样。

真机RL的专用数据集

RL训练的核心是交互闭环。策略执行一个动作,环境返回新的状态和奖励,策略根据反馈调整下一次动作。这个闭环里,奖励信号、状态转移、终局判断缺一不可。离线示教数据的问题就在这里——它只有成功的轨迹,没有“如果做错了会怎样”的转移样本,没有“这一步离成功还有多远”的价值信号,更没有“这个状态是否可恢复”的判断依据。

π0.6等工作已经给了行业一个重要的启示:真实交互反馈是策略进化的燃料,不是锦上添花。π0.6在真实环境里跑了大量的rollout,把失败、恢复、人在环接管这些信号全部带回训练,才做到了持续提升。但π0.6是一个闭源系统,它的数据、流程、标注方式都不对外开放。

这次开源数据集的目的之一,就是把这些被Pi验证有效的要素,变成社区共享的基础设施。

拆解全球大规模真机RL数据集:当机器人学会在真实世界里“试错”图1

数据集架构深度解析——不仅仅是数据量

1000多小时这个数字当然引人注目,但如果只是堆时长,意义有限。这份数据集的真正价值藏在它的任务结构和数据形态设计里。

任务组织用的是金字塔结构。最底层是基础动作——抓、放、推、拉、旋这些原子操作。往上是可迁移技能,比如“拿起一个细长物体”“把物品插入有公差的槽位”。再往上是长流程任务,比如“按照订单从货架上拣选商品并打包”。顶层是跨场景目标,比如“在任意给定的货架场景里完成补货”。

这种分层设计的好处很实际:做技能复用和奖励建模的时候,不需要每次从头标起。一个“插入”技能在产线场景里学到的东西,可以复用到家庭场景的“插插头”任务里。

拆解全球大规模真机RL数据集:当机器人学会在真实世界里“试错”图2

数据形态分成三种,这个设计尤其值得细说。

第一种是人工遥操作数据。这是最接近模仿学习数据的部分,提供清晰的任务路径和动作先验,告诉模型“什么是对的”。

第二种是人工介入数据。这是这份数据集和传统模仿学习数据拉开差距的关键。当策略偏离目标、即将碰撞、或者卡在某个死角时,人类操作员接管控制、纠正轨迹、然后把控制权交还给策略。整个过程——偏离、接管、纠正、交还——被完整记录。这些片段里藏着环境动态和可恢复性的关键信号:什么样的偏离可以自我纠正?什么样的状态必须人类介入?策略从哪里开始失控的?

第三种是自主推理数据。机器人独立rollout的全部记录,包括成功、失败、停滞、碰撞风险和恢复尝试。做RL的人都知道,失败样本往往比成功轨迹更金贵。成功轨迹告诉你“怎么做是对的”,失败轨迹告诉你“在什么边界条件下策略会崩”。而价值函数和critic网络的训练,恰恰需要大量的边界样本。

标注字段的设定也明显是RL老手操刀的。除了常规的多视角图像和本体状态,每条数据还附带了阶段切分、奖励标签、价值估算、成功/失败标记、异常原因和接管原因。有一个字段特别值得留意——“当前状态是否可恢复”。这直接关系到训练时advantage估计的准确性,也是区分“可强化数据”和“只能回放的数据”的分水岭。

本体与场景的覆盖率设计

覆盖率的本质不是数量,是能不能在训练时逼出模型的泛化能力。

这份数据集的机器人本体覆盖了SO系列、PiPER、智元G1/G2和星海图R1 Lite,还为人形、灵巧手、轮式平台留了接口。不同本体在自由度和形态上有明显差异,这就逼着模型不能只记住某台特定机器人的运动学特征,必须学到任务本身的结构。

场景覆盖则直接拉入了真实物理约束。产线工位要考虑节拍和对齐精度,门店货架要处理陈列规则和遮挡,仓储周转有库位匹配和路径效率的要求,家庭空间里的物体摆放没有固定模板,护理环境有严格的安全边界。这些约束在仿真里很难精确建模,但在这份数据集里是原生的——因为数据就是在这些真实场景里采的。

工具链与可复现实验体系

有数据没工具,就像有食材没厨房。

Evo-RL 给出了一套真机RL的参考流程:从人在环数据采集、价值函数学习、策略迭代到闭环rollout,每个环节都有可操作的步骤。Evo-Studio则把任务配置、数据版本管理、训练评测和部署协同串在一起,解决的是“做真机RL实验太费人”的工程痛点。

对研究社区来说,更重要的可能是可复现性。以前不同团队用不同数据、不同流程、不同评测方式做真机RL,方法之间很难公平比较。现在有了同一批真实轨迹、同一个评测协议,比较就变得有意义。

开源社区与后续演进

开源的节奏分成三步走:先放sample,让大家看清数据schema、标注方式和读取脚本;v0.1解锁首批多场景数据和基础benchmark;v0.2加入更多本体和自主推理数据,补上价值和奖励建模的关键字段。

这个节奏本身也在传递一个信号:这是一套可扩展、可复现、可协作的数据底座,不是一个一次性开源然后不管的项目。

具身智能正在进入一个节点:从“能在demo里跑通”到“能在真实场景里持续变好”。这一步跨越的代价不是算法,而是数据基础设施。真机RL需要的数据,不是更多的遥操作轨迹,而是带着交互反馈、价值判断和恢复信号的完整闭环数据。这份数据集迈出了第一步,整个行业也还需要更多的场景、更多的本体、更丰富的失败模式来填满这座数据底座。

Github:

https://github.com/MINT-SJTU/Evo-RL

Huggingface:

https://huggingface.co/datasets/MINT-SJTU/RW-RL-Dataset

拆解全球大规模真机RL数据集:当机器人学会在真实世界里“试错”图3


-END-

Ask Me Anything|提问箱

对文章有疑惑,或想聊更深?欢迎把你的问题丢给我们:技术方案、实操踩坑、课程与资料、项目合作、职业发展,都可以问。

怎么问:在评论区留言,或私信公众号

我们会做什么:每周集中整理高质量问题并公开回复,重点问题邀请作者或嘉宾深度解答;典型问题会加入知识库并持续更新。

提问小提示:尽量说明「你的目标—当前做法—期望产出」,附上必要信息(硬件/软件版本、数据规模等),能更快获得有用答案。

一起把问题变成知识,推动社区进步 🚀

拆解全球大规模真机RL数据集:当机器人学会在真实世界里“试错”图4

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人 拆解
more
BEV杀入具身智能:跨维智能把机器人数据带上Scaling快车道
大晓机器人联合南洋理工打通Physical AI全链路!PhysX-Omni补齐物理AI基建
成都“小巨人”,给机器人装上“活关节”!
CVPR 2026现场直击:CV与机器人的物理结界被彻底打破
大晓机器人开源全球最大中国家庭专属全屋3D数据集
推动人形机器人在真实生产生活中常态化部署应用!两部门发文
重磅!小鹏被传机器人核心人物离职
拟募资近8亿!国家“专精特新”小巨人加码工业机器人
埃斯顿盘中涨超13%,工业机器人出货量居中国市场首位
汽车早餐 | 中国取代日本成澳大利亚头号进口汽车来源国;小米机器人团队拿下双料冠军;闻泰科技起诉安世荷兰
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号