没想到 PI 押注的真机RL，这家公司把他做到了全球大规模开源

点击下方卡片，关注“具身智能之心”公众号

这半年，行业内已经形成了一个共识：光靠示教，机器人到不了“能交付”的地步。

最有代表性的就是 Physical Intelligence 的 π*0.6。π*0.6没有继续推进更大的模仿学习数据，干脆把机器人放回真实环境，让它自己上手、自己出错、再被纠正，进而将这些真实交互反馈给机器人学习。叠衣服、装配、做咖啡这些任务，吞吐和可靠性都明显得到了提升。

这不是 PI 一家的判断。从硅谷到国内一线团队，真机强化学习正在从「可选项」「必选项」。这是因为大家都撞到了同一个问题：模仿学习能教会机器人「怎么开始做一件事」，却教不会它「做砸了如何纠错恢复」。在真实部署中，恰恰真机RL，决定了一个漂亮的 demo 能不能变成真正的 deployment。

可行业的现实却是，所有人都会卡在同一个地方，数据。

真机 RL 缺乏的，是一种过去几乎没人系统采过的数据：policy 在真实环境里犯错的状态、接管员在旁边接管纠正的过程、模型自己 rollout 时的成功、失败、卡壳和恢复。干净漂亮的遥操作轨迹其实满地都是，可这种带着失败和纠错的真实轨迹，才是整个行业最缺乏、也最难靠一家之力攒齐的。

今天，博登智能、均普智能、上海交通大学 MINT 实验室三方联合，把这批数据开源了出来——全球大规模的真机强化学习数据集 RW-RL-Dataset。第一版包含 1000+ 小时真实机器人数据，覆盖 4+ 类机器人系列、9+ 个场景域、30+ 任务模板和 3 类数据形态，面向人类在环、真机自主探索以及离线/在线强化学习训练。这一次，他们给所有想做真机 RL 的团队，一套可扩展、可复现、可协作的真实世界数据底座。

01.

真机强化学习是具身智能快速落地的关键

对真实机器人来说，模仿学习解决的是“如何开始做”，强化学习解决的是“如何持续改进”。机器人进入真实环境后，会遇到大量离线示教覆盖不全的变化。只有把真实执行反馈带回训练，策略才有机会从可演示走向可部署。

真机强化学习（RW-RL）的价值正在这里显现。它记录 policy 的执行结果、人在环接管和任务反馈，让模型在真实交互中形成更细的判断：当前状态是否可恢复，当前动作是否推进任务，当前轨迹是否值得继续强化。开源这类数据，可以让不同团队在同一批真实轨迹上复现实验、比较方法，并把分散在本体和场景里的经验沉淀下来。该数据集基于 Evo-RL 技术，提供真实机器人强化学习的数据采集、人在环记录、价值函数学习、策略迭代和闭环 rollout 参考流程。

02.

超大规模 RW-RL-Dataset 数据集

覆盖全面场景和任务

RW-RL-Dataset 数据集第一版包括：1000+ 小时真实机器人数据、4+ 类机器人系列、9+ 个场景域、30+ 任务模板和3 类数据形态。后续版本将继续扩展更多本体配置、任务模板和公开 benchmark。

在本体层面，RW-RL-Dataset 数据集覆盖 SO 系列、PiPER 系列、智元 G1/G2 系列、星海图 R1 Lite 等机器人平台，并为后续接入人形、移动双臂、轮式作业平台、灵巧手和不同末端执行器预留接口。

在场景层面，RW-RL-Dataset 数据集围绕真实操作约束展开：产线工位的节拍和对齐，门店货架的陈列和补货，仓储周转的搬运和库位匹配，酒店服务的标准流程，餐饮后厨的工具使用，家庭空间的高变化物体，护理环境的安全边界，科研实验的精细控制，以及教育实训的可复现任务。

在任务层面，RW-RL-Dataset 数据集采用金字塔式组织：底层是基础动作，中层是可迁移操作技能，上层是长流程任务，顶层是跨场景目标。这样的结构更适合后续做技能复用、奖励建模和策略评测。

数据形态分为三类。第一类是人工遥操作数据，用来提供清晰的任务路径和动作先验；第二类是人工介入数据，记录 policy 偏离目标时的人类接管、纠正和交还；第三类是自主推理数据，记录模型独立 rollout 中的成功、失败、停滞、碰撞风险和恢复尝试。

这些数据会同步记录环境、本体、相机、任务语义、阶段切分、关键片段、奖励、价值、成功/失败、异常和接管原因。对于 RL 训练来说，这些字段决定了数据能否从“能回放”进一步变成“能强化”。

03.

共建真机强化学习社区

真机强化学习需要长期社区协作。该项目将持续开放数据、工具链、标注规范、训练基线和评测协议，让更多本体、任务和场景可以逐步接入。

后续 release 将按阶段推进：Sample release 会优先公布样例 episode、数据 schema、标注样例、读取脚本和 dataset card；v0.1 将开放首批多场景数据、基础 benchmark、人工遥操作与人工介入样例；v0.2 将加入更多本体、自主推理数据，以及价值/奖励建模相关字段。

关于上海交通大学 MINT 实验室

上海交通大学MINT实验室聚焦具身智能、空间智能、数据智能研究。实验室已发表包括 CVPR, ICLR, TPAMI, Nature, 等数十篇论文，其中7篇 Oral/Spotlight. 曾获 ICML 2022 杰出论文奖，CVPR 2026 "Efficient CVPR" Badge。

关于宁波博登智能科技有限公司

宁波博登智能科技有限公司（简称“博登智能”）成立于 2019 年，是面向 Physical AI 时代的核心基础设施企业，专注打造面向真实世界的全栈智能训练底座。

公司以“Train at Scale, Validate in Reality”为核心战略，在宁波、湖州、马鞍山布局超 3 万平方米具身机器人创新中心，实现年产 50 万小时机器人真机数据与百万小时级 Ego 场景数据的稳定产能。

目前，客户已覆盖具身智能、大模型与自动驾驶三大领域，并建立覆盖中国、北美、欧洲、中东及东南亚的生态网络，致力于打造真实、可信、开放的 Physical AI 核心基础设施平台。

关于宁波具身智能机器人创新中心

宁波具身智能机器人创新中心有限公司成立于 2025 年 8 月，是宁波均普人工智能与人形机器人研究院有限公司全资子公司，背靠科创板上市公司宁波均普智能制造股份有限公司（股票代码：688306），是面向具身智能领域的高质量数据基础设施与服务提供商。

公司以构建面向具身智能的高价值数据生态为使命，依托完善的数据运营体系、先进的数据采集工具与平台，打通数据全生命周期，实现真实数据与合成数据的高效采集、标准化处理、智能管理与安全应用。

END