点击下方卡片,关注“具身智能之心”公众号
这半年,行业内已经形成了一个共识:光靠示教,机器人到不了“能交付”的地步。
最有代表性的就是 Physical Intelligence 的 π*0.6。π*0.6没有继续推进更大的模仿学习数据,干脆把机器人放回真实环境,让它自己上手、自己出错、再被纠正,进而将这些真实交互反馈给机器人学习。叠衣服、装配、做咖啡这些任务,吞吐和可靠性都明显得到了提升。
这不是 PI 一家的判断。从硅谷到国内一线团队,真机强化学习正在从「可选项」「必选项」。这是因为大家都撞到了同一个问题:模仿学习能教会机器人「怎么开始做一件事」,却教不会它「做砸了如何纠错恢复」。在真实部署中,恰恰真机RL,决定了一个漂亮的 demo 能不能变成真正的 deployment。
可行业的现实却是,所有人都会卡在同一个地方,数据。
真机 RL 缺乏的,是一种过去几乎没人系统采过的数据:policy 在真实环境里犯错的状态、接管员在旁边接管纠正的过程、模型自己 rollout 时的成功、失败、卡壳和恢复。干净漂亮的遥操作轨迹其实满地都是,可这种带着失败和纠错的真实轨迹,才是整个行业最缺乏、也最难靠一家之力攒齐的。
今天,博登智能、均普智能、上海交通大学 MINT 实验室三方联合,把这批数据开源了出来——全球大规模的真机强化学习数据集 RW-RL-Dataset。第一版包含 1000+ 小时真实机器人数据,覆盖 4+ 类机器人系列、9+ 个场景域、30+ 任务模板和 3 类数据形态,面向人类在环、真机自主探索以及离线/在线强化学习训练。这一次,他们给所有想做真机 RL 的团队,一套可扩展、可复现、可协作的真实世界数据底座。
01.
真机强化学习是具身智能快速落地的关键
对真实机器人来说,模仿学习解决的是“如何开始做”,强化学习解决的是“如何持续改进”。机器人进入真实环境后,会遇到大量离线示教覆盖不全的变化。只有把真实执行反馈带回训练,策略才有机会从可演示走向可部署。
真机强化学习(RW-RL)的价值正在这里显现。它记录 policy 的执行结果、人在环接管和任务反馈,让模型在真实交互中形成更细的判断:当前状态是否可恢复,当前动作是否推进任务,当前轨迹是否值得继续强化。开源这类数据,可以让不同团队在同一批真实轨迹上复现实验、比较方法,并把分散在本体和场景里的经验沉淀下来。该数据集基于 Evo-RL 技术,提供真实机器人强化学习的数据采集、人在环记录、价值函数学习、策略迭代和闭环 rollout 参考流程。

02.
超大规模 RW-RL-Dataset 数据集
覆盖全面场景和任务
RW-RL-Dataset 数据集第一版包括:1000+ 小时真实机器人数据、4+ 类机器人系列、9+ 个场景域、30+ 任务模板和3 类数据形态。后续版本将继续扩展更多本体配置、任务模板和公开 benchmark。

在本体层面,RW-RL-Dataset 数据集覆盖 SO 系列、PiPER 系列、智元 G1/G2 系列、星海图 R1 Lite 等机器人平台,并为后续接入人形、移动双臂、轮式作业平台、灵巧手和不同末端执行器预留接口。
在场景层面,RW-RL-Dataset 数据集围绕真实操作约束展开:产线工位的节拍和对齐,门店货架的陈列和补货,仓储周转的搬运和库位匹配,酒店服务的标准流程,餐饮后厨的工具使用,家庭空间的高变化物体,护理环境的安全边界,科研实验的精细控制,以及教育实训的可复现任务。
在任务层面,RW-RL-Dataset 数据集采用金字塔式组织:底层是基础动作,中层是可迁移操作技能,上层是长流程任务,顶层是跨场景目标。这样的结构更适合后续做技能复用、奖励建模和策略评测。
数据形态分为三类。第一类是人工遥操作数据,用来提供清晰的任务路径和动作先验;第二类是人工介入数据,记录 policy 偏离目标时的人类接管、纠正和交还;第三类是自主推理数据,记录模型独立 rollout 中的成功、失败、停滞、碰撞风险和恢复尝试。

这些数据会同步记录环境、本体、相机、任务语义、阶段切分、关键片段、奖励、价值、成功/失败、异常和接管原因。对于 RL 训练来说,这些字段决定了数据能否从“能回放”进一步变成“能强化”。
03.
共建真机强化学习社区
真机强化学习需要长期社区协作。该项目将持续开放数据、工具链、标注规范、训练基线和评测协议,让更多本体、任务和场景可以逐步接入。
后续 release 将按阶段推进:Sample release 会优先公布样例 episode、数据 schema、标注样例、读取脚本和 dataset card;v0.1 将开放首批多场景数据、基础 benchmark、人工遥操作与人工介入样例;v0.2 将加入更多本体、自主推理数据,以及价值/奖励建模相关字段。

关于上海交通大学 MINT 实验室
上海交通大学MINT实验室聚焦具身智能、空间智能、数据智能研究。实验室已发表包括 CVPR, ICLR, TPAMI, Nature, 等数十篇论文,其中7篇 Oral/Spotlight. 曾获 ICML 2022 杰出论文奖,CVPR 2026 "Efficient CVPR" Badge。
关于宁波博登智能科技有限公司
宁波博登智能科技有限公司(简称“博登智能”)成立于 2019 年,是面向 Physical AI 时代的核心基础设施企业,专注打造面向真实世界的全栈智能训练底座。
公司以“Train at Scale, Validate in Reality”为核心战略,在宁波、湖州、马鞍山布局超 3 万平方米具身机器人创新中心,实现年产 50 万小时机器人真机数据与百万小时级 Ego 场景数据的稳定产能。
目前,客户已覆盖具身智能、大模型与自动驾驶三大领域,并建立覆盖中国、北美、欧洲、中东及东南亚的生态网络,致力于打造真实、可信、开放的 Physical AI 核心基础设施平台。
关于宁波具身智能机器人创新中心
宁波具身智能机器人创新中心有限公司成立于 2025 年 8 月,是宁波均普人工智能与人形机器人研究院有限公司全资子公司,背靠科创板上市公司宁波均普智能制造股份有限公司(股票代码:688306),是面向具身智能领域的高质量数据基础设施与服务提供商。
公司以构建面向具身智能的高价值数据生态为使命,依托完善的数据运营体系、先进的数据采集工具与平台,打通数据全生命周期,实现真实数据与合成数据的高效采集、标准化处理、智能管理与安全应用。

