点击下方卡片,关注【Xbotics具身智能实验室】公众号
更多具身干货,欢迎加入(戳我)
👉具身智能学习资料汇总:https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-Guide
👉具身智能求职/实习信息汇总:https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-AI-Job
你想要的这里都有~~
模仿学习让机器人站上起跑线,但发令枪响之后呢?
具身智能圈子里有一个不太愿意被公开讨论的事实:很多用遥操作数据训练出来的策略,换一个光照条件、换一个物体摆放角度,表现就断崖式下跌。
不是说模仿学习不重要,它解决了“从0到1”的问题,让机器人第一次把任务跑通了。但“从1到100”——让机器人在真实环境里越做越稳、越做越快——这件事,模仿学习撑不住。
为什么撑不住?因为离线示教数据里没有“错误”。没有偏离目标时的挣扎,没有物体滑落后的人类补救,没有碰撞后的策略调整。训练时没见过这些,部署时碰到了,策略就只能原地发呆或者做出危险动作。
这就是真机强化学习专用数据集的意义,从采集方式到标注字段,都围绕着“可强化”来设计。博登智能、均普和上海交大MINT实验室这次开源的数据集,给行业交了一份答卷:一份能用来做真机RL的数据,到底长什么样。
真机RL的专用数据集
RL训练的核心是交互闭环。策略执行一个动作,环境返回新的状态和奖励,策略根据反馈调整下一次动作。这个闭环里,奖励信号、状态转移、终局判断缺一不可。离线示教数据的问题就在这里——它只有成功的轨迹,没有“如果做错了会怎样”的转移样本,没有“这一步离成功还有多远”的价值信号,更没有“这个状态是否可恢复”的判断依据。
π0.6等工作已经给了行业一个重要的启示:真实交互反馈是策略进化的燃料,不是锦上添花。π0.6在真实环境里跑了大量的rollout,把失败、恢复、人在环接管这些信号全部带回训练,才做到了持续提升。但π0.6是一个闭源系统,它的数据、流程、标注方式都不对外开放。
这次开源数据集的目的之一,就是把这些被Pi验证有效的要素,变成社区共享的基础设施。

数据集架构深度解析——不仅仅是数据量
1000多小时这个数字当然引人注目,但如果只是堆时长,意义有限。这份数据集的真正价值藏在它的任务结构和数据形态设计里。
任务组织用的是金字塔结构。最底层是基础动作——抓、放、推、拉、旋这些原子操作。往上是可迁移技能,比如“拿起一个细长物体”“把物品插入有公差的槽位”。再往上是长流程任务,比如“按照订单从货架上拣选商品并打包”。顶层是跨场景目标,比如“在任意给定的货架场景里完成补货”。
这种分层设计的好处很实际:做技能复用和奖励建模的时候,不需要每次从头标起。一个“插入”技能在产线场景里学到的东西,可以复用到家庭场景的“插插头”任务里。

数据形态分成三种,这个设计尤其值得细说。
第一种是人工遥操作数据。这是最接近模仿学习数据的部分,提供清晰的任务路径和动作先验,告诉模型“什么是对的”。
第二种是人工介入数据。这是这份数据集和传统模仿学习数据拉开差距的关键。当策略偏离目标、即将碰撞、或者卡在某个死角时,人类操作员接管控制、纠正轨迹、然后把控制权交还给策略。整个过程——偏离、接管、纠正、交还——被完整记录。这些片段里藏着环境动态和可恢复性的关键信号:什么样的偏离可以自我纠正?什么样的状态必须人类介入?策略从哪里开始失控的?
第三种是自主推理数据。机器人独立rollout的全部记录,包括成功、失败、停滞、碰撞风险和恢复尝试。做RL的人都知道,失败样本往往比成功轨迹更金贵。成功轨迹告诉你“怎么做是对的”,失败轨迹告诉你“在什么边界条件下策略会崩”。而价值函数和critic网络的训练,恰恰需要大量的边界样本。
标注字段的设定也明显是RL老手操刀的。除了常规的多视角图像和本体状态,每条数据还附带了阶段切分、奖励标签、价值估算、成功/失败标记、异常原因和接管原因。有一个字段特别值得留意——“当前状态是否可恢复”。这直接关系到训练时advantage估计的准确性,也是区分“可强化数据”和“只能回放的数据”的分水岭。
本体与场景的覆盖率设计
覆盖率的本质不是数量,是能不能在训练时逼出模型的泛化能力。
这份数据集的机器人本体覆盖了SO系列、PiPER、智元G1/G2和星海图R1 Lite,还为人形、灵巧手、轮式平台留了接口。不同本体在自由度和形态上有明显差异,这就逼着模型不能只记住某台特定机器人的运动学特征,必须学到任务本身的结构。
场景覆盖则直接拉入了真实物理约束。产线工位要考虑节拍和对齐精度,门店货架要处理陈列规则和遮挡,仓储周转有库位匹配和路径效率的要求,家庭空间里的物体摆放没有固定模板,护理环境有严格的安全边界。这些约束在仿真里很难精确建模,但在这份数据集里是原生的——因为数据就是在这些真实场景里采的。
工具链与可复现实验体系
有数据没工具,就像有食材没厨房。
Evo-RL 给出了一套真机RL的参考流程:从人在环数据采集、价值函数学习、策略迭代到闭环rollout,每个环节都有可操作的步骤。Evo-Studio则把任务配置、数据版本管理、训练评测和部署协同串在一起,解决的是“做真机RL实验太费人”的工程痛点。
对研究社区来说,更重要的可能是可复现性。以前不同团队用不同数据、不同流程、不同评测方式做真机RL,方法之间很难公平比较。现在有了同一批真实轨迹、同一个评测协议,比较就变得有意义。
开源社区与后续演进
开源的节奏分成三步走:先放sample,让大家看清数据schema、标注方式和读取脚本;v0.1解锁首批多场景数据和基础benchmark;v0.2加入更多本体和自主推理数据,补上价值和奖励建模的关键字段。
这个节奏本身也在传递一个信号:这是一套可扩展、可复现、可协作的数据底座,不是一个一次性开源然后不管的项目。
具身智能正在进入一个节点:从“能在demo里跑通”到“能在真实场景里持续变好”。这一步跨越的代价不是算法,而是数据基础设施。真机RL需要的数据,不是更多的遥操作轨迹,而是带着交互反馈、价值判断和恢复信号的完整闭环数据。这份数据集迈出了第一步,整个行业也还需要更多的场景、更多的本体、更丰富的失败模式来填满这座数据底座。
Github:
https://github.com/MINT-SJTU/Evo-RL
Huggingface:
https://huggingface.co/datasets/MINT-SJTU/RW-RL-Dataset

-END-
Ask Me Anything|提问箱
❝对文章有疑惑,或想聊更深?欢迎把你的问题丢给我们:技术方案、实操踩坑、课程与资料、项目合作、职业发展,都可以问。
怎么问:在评论区留言,或私信公众号
我们会做什么:每周集中整理高质量问题并公开回复,重点问题邀请作者或嘉宾深度解答;典型问题会加入知识库并持续更新。
提问小提示:尽量说明「你的目标—当前做法—期望产出」,附上必要信息(硬件/软件版本、数据规模等),能更快获得有用答案。
一起把问题变成知识,推动社区进步 🚀
