点击下方卡片，关注【Xbotics具身智能实验室】公众号

更多具身干货，欢迎加入（戳我）

👉具身智能学习资料汇总：https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-Guide

👉具身智能求职/实习信息汇总：https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-AI-Job

你想要的这里都有~~

模仿学习让机器人站上起跑线，但发令枪响之后呢？

具身智能圈子里有一个不太愿意被公开讨论的事实：很多用遥操作数据训练出来的策略，换一个光照条件、换一个物体摆放角度，表现就断崖式下跌。

不是说模仿学习不重要，它解决了“从0到1”的问题，让机器人第一次把任务跑通了。但“从1到100”——让机器人在真实环境里越做越稳、越做越快——这件事，模仿学习撑不住。

为什么撑不住？因为离线示教数据里没有“错误”。没有偏离目标时的挣扎，没有物体滑落后的人类补救，没有碰撞后的策略调整。训练时没见过这些，部署时碰到了，策略就只能原地发呆或者做出危险动作。

这就是真机强化学习专用数据集的意义，从采集方式到标注字段，都围绕着“可强化”来设计。博登智能、均普和上海交大MINT实验室这次开源的数据集，给行业交了一份答卷：一份能用来做真机RL的数据，到底长什么样。

真机RL的专用数据集

RL训练的核心是交互闭环。策略执行一个动作，环境返回新的状态和奖励，策略根据反馈调整下一次动作。这个闭环里，奖励信号、状态转移、终局判断缺一不可。离线示教数据的问题就在这里——它只有成功的轨迹，没有“如果做错了会怎样”的转移样本，没有“这一步离成功还有多远”的价值信号，更没有“这个状态是否可恢复”的判断依据。

π0.6等工作已经给了行业一个重要的启示：真实交互反馈是策略进化的燃料，不是锦上添花。π0.6在真实环境里跑了大量的rollout，把失败、恢复、人在环接管这些信号全部带回训练，才做到了持续提升。但π0.6是一个闭源系统，它的数据、流程、标注方式都不对外开放。

这次开源数据集的目的之一，就是把这些被Pi验证有效的要素，变成社区共享的基础设施。

数据集架构深度解析——不仅仅是数据量

1000多小时这个数字当然引人注目，但如果只是堆时长，意义有限。这份数据集的真正价值藏在它的任务结构和数据形态设计里。

任务组织用的是金字塔结构。最底层是基础动作——抓、放、推、拉、旋这些原子操作。往上是可迁移技能，比如“拿起一个细长物体”“把物品插入有公差的槽位”。再往上是长流程任务，比如“按照订单从货架上拣选商品并打包”。顶层是跨场景目标，比如“在任意给定的货架场景里完成补货”。

这种分层设计的好处很实际：做技能复用和奖励建模的时候，不需要每次从头标起。一个“插入”技能在产线场景里学到的东西，可以复用到家庭场景的“插插头”任务里。

数据形态分成三种，这个设计尤其值得细说。

第一种是人工遥操作数据。这是最接近模仿学习数据的部分，提供清晰的任务路径和动作先验，告诉模型“什么是对的”。

第二种是人工介入数据。这是这份数据集和传统模仿学习数据拉开差距的关键。当策略偏离目标、即将碰撞、或者卡在某个死角时，人类操作员接管控制、纠正轨迹、然后把控制权交还给策略。整个过程——偏离、接管、纠正、交还——被完整记录。这些片段里藏着环境动态和可恢复性的关键信号：什么样的偏离可以自我纠正？什么样的状态必须人类介入？策略从哪里开始失控的？

第三种是自主推理数据。机器人独立rollout的全部记录，包括成功、失败、停滞、碰撞风险和恢复尝试。做RL的人都知道，失败样本往往比成功轨迹更金贵。成功轨迹告诉你“怎么做是对的”，失败轨迹告诉你“在什么边界条件下策略会崩”。而价值函数和critic网络的训练，恰恰需要大量的边界样本。

标注字段的设定也明显是RL老手操刀的。除了常规的多视角图像和本体状态，每条数据还附带了阶段切分、奖励标签、价值估算、成功/失败标记、异常原因和接管原因。有一个字段特别值得留意——“当前状态是否可恢复”。这直接关系到训练时advantage估计的准确性，也是区分“可强化数据”和“只能回放的数据”的分水岭。

本体与场景的覆盖率设计

覆盖率的本质不是数量，是能不能在训练时逼出模型的泛化能力。

这份数据集的机器人本体覆盖了SO系列、PiPER、智元G1/G2和星海图R1 Lite，还为人形、灵巧手、轮式平台留了接口。不同本体在自由度和形态上有明显差异，这就逼着模型不能只记住某台特定机器人的运动学特征，必须学到任务本身的结构。

场景覆盖则直接拉入了真实物理约束。产线工位要考虑节拍和对齐精度，门店货架要处理陈列规则和遮挡，仓储周转有库位匹配和路径效率的要求，家庭空间里的物体摆放没有固定模板，护理环境有严格的安全边界。这些约束在仿真里很难精确建模，但在这份数据集里是原生的——因为数据就是在这些真实场景里采的。

工具链与可复现实验体系

有数据没工具，就像有食材没厨房。

Evo-RL 给出了一套真机RL的参考流程：从人在环数据采集、价值函数学习、策略迭代到闭环rollout，每个环节都有可操作的步骤。Evo-Studio则把任务配置、数据版本管理、训练评测和部署协同串在一起，解决的是“做真机RL实验太费人”的工程痛点。

对研究社区来说，更重要的可能是可复现性。以前不同团队用不同数据、不同流程、不同评测方式做真机RL，方法之间很难公平比较。现在有了同一批真实轨迹、同一个评测协议，比较就变得有意义。

开源社区与后续演进

开源的节奏分成三步走：先放sample，让大家看清数据schema、标注方式和读取脚本；v0.1解锁首批多场景数据和基础benchmark；v0.2加入更多本体和自主推理数据，补上价值和奖励建模的关键字段。

这个节奏本身也在传递一个信号：这是一套可扩展、可复现、可协作的数据底座，不是一个一次性开源然后不管的项目。

具身智能正在进入一个节点：从“能在demo里跑通”到“能在真实场景里持续变好”。这一步跨越的代价不是算法，而是数据基础设施。真机RL需要的数据，不是更多的遥操作轨迹，而是带着交互反馈、价值判断和恢复信号的完整闭环数据。这份数据集迈出了第一步，整个行业也还需要更多的场景、更多的本体、更丰富的失败模式来填满这座数据底座。

Github:

https://github.com/MINT-SJTU/Evo-RL

Huggingface:

https://huggingface.co/datasets/MINT-SJTU/RW-RL-Dataset

-END-

Ask Me Anything｜提问箱

❝
对文章有疑惑，或想聊更深？欢迎把你的问题丢给我们：技术方案、实操踩坑、课程与资料、项目合作、职业发展，都可以问。
怎么问：在评论区留言，或私信公众号
我们会做什么：每周集中整理高质量问题并公开回复，重点问题邀请作者或嘉宾深度解答；典型问题会加入知识库并持续更新。
提问小提示：尽量说明「你的目标—当前做法—期望产出」，附上必要信息（硬件/软件版本、数据规模等），能更快获得有用答案。
一起把问题变成知识，推动社区进步 🚀