点击下方卡片,关注“具身智能之心”公众号
如果说 π0、π0.5 让 VLA模型逐渐学会看懂任务并执行动作,那么 π*0.6 的出现,则把具身智能社区的注意力重新拉回到一个更本质的问题上:机器人能否不只是模仿人类演示,而是在真实执行、失败、纠正和反复练习中积累经验,变得更强?Physical Intelligence 在 π*0.6 中使用的核心方法 RECAP,全称是 RL with Experience and Corrections via Advantage-conditioned Policies。它试图解决的关键问题是:如何把真实机器人在执行过程中积累的成功、失败和纠错经验,转化为可用于策略提升的训练信号。
也正是从 π*0.6 开始,具身智能圈掀起了一波新的强化学习热潮。但当前openpi官方代码库主要包含监督学习的实现,缺少价值函数训练、优势条件策略架构等 RECAP 关键训练组件。业内普遍存在复现瓶颈:缺少正确、简易上手、可复现实验、检查中间结果的开源代码。
最近我们看到,RLinf 团队推出了开源、可复现的版本。RLinf 将 RECAP 分解成可以执行、可以调试、可以验证的工程链路:完成了回报计算、价值模型训练、优势估计,到基于优势条件(Advantage Conditioning)的策略优化等核心组件的开发,最终在 LIBERO 仿真环境和真机叠毛巾任务中完成验证。
代码链接:RLinf GitHub:https://github.com/RLinf/RLinf
RLinf RECAP 使用文档链接:https://rlinf.readthedocs.io/zh-cn/latest/rst_source/examples/embodied/recap.html
01
RLinf 如何复现 RECAP
在 RLinf 中,RECAP严被拆成四个连续阶段,如图1所示。
■Step 1:Compute Returns。
系统会对数据集中每条轨迹逆序计算折扣回报。对于专家数据和rollout的成功轨迹,使用每步 -1、终止步 0 的奖励设计;对于 rollout的失败轨迹,则可以对失败终止步加入c_fail的额外惩罚。
■Step 2:Value Model SFT。
有了回报之后,进一步训练一个价值模型,让它从图像观察和语言指令中预测当前状态的归一化回报。价值模型由 SigLIP2 视觉编码器、Gemma3 语言模型和可学习 Critic Expert 组成,并采用分布式价值预测方式。这一步是在回答:机器人走到当前这个状态,距离最终成功还有多远?
■Step 3:Compute Advantages。
价值模型训练好之后,RLinf 会用它对数据集中每个时间步计算优势值。直觉上,如果一个动作让后续状态的价值变高,它就是好动作;如果让价值变低,它就可能是导致失败的动作。RLinf 使用 N 步前瞻优势估计,并支持按照分位数阈值把样本标成正样本或负样本。默认优势值 top 30% 的样本会被标记为正样本。
■Step 4:CFG Training。
最后,RLinf 使用优势标签训练策略模型。正样本作为条件输入,负样本作为无条件输入;推理时则通过 guidance scale 控制模型向高优势动作偏移。
整个流程的关键在于,RLinf 将 RECAP 的每一步都显式拆开:return 文件、value checkpoint、advantage 标签和策略训练数据都可以被单独检查和替换。同时,系统还提供优势分布、正样本比例和 episode 回放等可视化工具,方便用户复核中间结果,而不是只看到最终的策略性能。

图 1 RLinf RECAP 四阶段工作流
02
LIBERO 仿真验证
为了方便真正上手验证,RLinf 在 LIBERO-10 Task 0 上提供了完整的 RECAP 可复现实验(数据集已开源:https://huggingface.co/datasets/RLinf/RECAP-Libero10-Task0-48succ-Data)。在这套实验中,SFT 数据来自 LIBERO-10 的专家演示成功轨迹;Rollout 数据来自 few-shot π0.5 策略在 Task 0 上采集的 4096 条轨迹,包含成功和失败 episode。RECAP 使用这些含失败轨迹的数据,并尝试从这些非完美经验里提炼可用于策略改进的信号。在 LIBERO-10 Task 0 上执行一轮 RECAP 迭代后,成功率从 48.8% 提升到 66.5%,绝对提升 17.7 个百分点。

图 2 LIBERO-10 Task 0 上 RECAP 前后成功率对比
对于想研究 RECAP 的开发者来说,这意味着不再需要从零还原训练细节;对于想做算法改进的研究者来说,这意味着可以基于同一套流程替换 reward、value model、advantage threshold、policy extraction 方式,进行更系统的对比实验。
03
真机任务测试
这套方法在真实机器人上是否也有效果?为了回答这个问题,我们进一步在真机上进行叠毛巾任务的测试,对比 π0 SFT baseline 与 RECAP 的任务成功率。叠毛巾是一个典型的长程双臂操作任务,包含抓取、展开、对齐和连续折叠等多个步骤,对策略的稳定性和纠错能力要求较高。实验中,我们共使用 240 条专家遥操作采集数据、125 条策略自主 rollout 数据,以及 20 条人类干预的 DAgger 数据,用于构建真实机器人上的训练与评估流程。

图 3 真机叠毛巾测试
实验结果显示,RECAP 在真实机器人叠毛巾任务上带来了明显提升。相比仅使用专家示范数据训练的 π0 behavior clonine (BC) baseline,RECAP 在引入策略自主 rollout 数据和 DAgger 数据后,将任务成功率从 33.3% 提升到 55.6%,绝对提升 22.3 个百分点。
这组结果验证了 RECAP 的核心假设:混合质量数据并不只是噪声来源,只要能够通过价值模型识别出其中更有利于任务完成的片段,策略就可以从自主 rollout 和人类干预数据中提取有价值的行为,从而进一步提升真机操作任务的完成能力。

表 1 真机叠毛巾测试结果
04
总结与展望
π*0.6 让我们看到,机器人基础模型并不只能仅停留在模仿专家样本阶段。通过价值评估、数据筛选和策略再训练,模型有机会从已有数据和自身交互中继续改进,逐步走向真正意义上的自我提升。我们在 LIBERO 和真机任务上复现的结果也确实表明这一思路的可行性。
不过,这仍然只是一个起点。真实机器人落地远比标准 benchmark 更复杂:物体摆放、光照条件、相机标定、接触动力学和执行误差,都会不断制造新的分布偏移。RLinf 提供的不止于RECAP 复现,而是一套可复现、可扩展、可持续迭代的基础设施,让更多研究者能够在同一套平台上验证想法、比较方法,并推动机器人策略在真实世界中越做越好。若大家在使用 RLinf 时遇到问题,欢迎扫描下方二维码加入交流答疑群,一起探讨。


