开源了！pi*0.6 算法RECAP

点击下方卡片，关注“具身智能之心”公众号

如果说 π0、π0.5 让 VLA模型逐渐学会看懂任务并执行动作，那么 π*0.6 的出现，则把具身智能社区的注意力重新拉回到一个更本质的问题上：机器人能否不只是模仿人类演示，而是在真实执行、失败、纠正和反复练习中积累经验，变得更强？Physical Intelligence 在 π*0.6 中使用的核心方法 RECAP，全称是 RL with Experience and Corrections via Advantage-conditioned Policies。它试图解决的关键问题是：如何把真实机器人在执行过程中积累的成功、失败和纠错经验，转化为可用于策略提升的训练信号。

也正是从 π*0.6 开始，具身智能圈掀起了一波新的强化学习热潮。但当前openpi官方代码库主要包含监督学习的实现，缺少价值函数训练、优势条件策略架构等 RECAP 关键训练组件。业内普遍存在复现瓶颈：缺少正确、简易上手、可复现实验、检查中间结果的开源代码。

最近我们看到，RLinf 团队推出了开源、可复现的版本。RLinf 将 RECAP 分解成可以执行、可以调试、可以验证的工程链路：完成了回报计算、价值模型训练、优势估计，到基于优势条件(Advantage Conditioning)的策略优化等核心组件的开发，最终在 LIBERO 仿真环境和真机叠毛巾任务中完成验证。

代码链接：RLinf GitHub：https://github.com/RLinf/RLinf

RLinf RECAP 使用文档链接：https://rlinf.readthedocs.io/zh-cn/latest/rst_source/examples/embodied/recap.html

RLinf 如何复现 RECAP

在 RLinf 中，RECAP严被拆成四个连续阶段，如图1所示。

■Step 1：Compute Returns。

系统会对数据集中每条轨迹逆序计算折扣回报。对于专家数据和rollout的成功轨迹，使用每步 -1、终止步 0 的奖励设计；对于 rollout的失败轨迹，则可以对失败终止步加入c_fail的额外惩罚。

■Step 2：Value Model SFT。

有了回报之后，进一步训练一个价值模型，让它从图像观察和语言指令中预测当前状态的归一化回报。价值模型由 SigLIP2 视觉编码器、Gemma3 语言模型和可学习 Critic Expert 组成，并采用分布式价值预测方式。这一步是在回答：机器人走到当前这个状态，距离最终成功还有多远？

■Step 3：Compute Advantages。

价值模型训练好之后，RLinf 会用它对数据集中每个时间步计算优势值。直觉上，如果一个动作让后续状态的价值变高，它就是好动作；如果让价值变低，它就可能是导致失败的动作。RLinf 使用 N 步前瞻优势估计，并支持按照分位数阈值把样本标成正样本或负样本。默认优势值 top 30% 的样本会被标记为正样本。

■Step 4：CFG Training。

最后，RLinf 使用优势标签训练策略模型。正样本作为条件输入，负样本作为无条件输入；推理时则通过 guidance scale 控制模型向高优势动作偏移。

整个流程的关键在于，RLinf 将 RECAP 的每一步都显式拆开：return 文件、value checkpoint、advantage 标签和策略训练数据都可以被单独检查和替换。同时，系统还提供优势分布、正样本比例和 episode 回放等可视化工具，方便用户复核中间结果，而不是只看到最终的策略性能。

图 1 RLinf RECAP 四阶段工作流

LIBERO 仿真验证

为了方便真正上手验证，RLinf 在 LIBERO-10 Task 0 上提供了完整的 RECAP 可复现实验（数据集已开源：https://huggingface.co/datasets/RLinf/RECAP-Libero10-Task0-48succ-Data）。在这套实验中，SFT 数据来自 LIBERO-10 的专家演示成功轨迹；Rollout 数据来自 few-shot π0.5 策略在 Task 0 上采集的 4096 条轨迹，包含成功和失败 episode。RECAP 使用这些含失败轨迹的数据，并尝试从这些非完美经验里提炼可用于策略改进的信号。在 LIBERO-10 Task 0 上执行一轮 RECAP 迭代后，成功率从 48.8% 提升到 66.5%，绝对提升 17.7 个百分点。

图 2 LIBERO-10 Task 0 上 RECAP 前后成功率对比

对于想研究 RECAP 的开发者来说，这意味着不再需要从零还原训练细节；对于想做算法改进的研究者来说，这意味着可以基于同一套流程替换 reward、value model、advantage threshold、policy extraction 方式，进行更系统的对比实验。

真机任务测试

这套方法在真实机器人上是否也有效果？为了回答这个问题，我们进一步在真机上进行叠毛巾任务的测试，对比 π0 SFT baseline 与 RECAP 的任务成功率。叠毛巾是一个典型的长程双臂操作任务，包含抓取、展开、对齐和连续折叠等多个步骤，对策略的稳定性和纠错能力要求较高。实验中，我们共使用 240 条专家遥操作采集数据、125 条策略自主 rollout 数据，以及 20 条人类干预的 DAgger 数据，用于构建真实机器人上的训练与评估流程。

图 3 真机叠毛巾测试

实验结果显示，RECAP 在真实机器人叠毛巾任务上带来了明显提升。相比仅使用专家示范数据训练的 π0 behavior clonine (BC) baseline，RECAP 在引入策略自主 rollout 数据和 DAgger 数据后，将任务成功率从 33.3% 提升到 55.6%，绝对提升 22.3 个百分点。

这组结果验证了 RECAP 的核心假设：混合质量数据并不只是噪声来源，只要能够通过价值模型识别出其中更有利于任务完成的片段，策略就可以从自主 rollout 和人类干预数据中提取有价值的行为，从而进一步提升真机操作任务的完成能力。

表 1 真机叠毛巾测试结果

总结与展望

π*0.6 让我们看到，机器人基础模型并不只能仅停留在模仿专家样本阶段。通过价值评估、数据筛选和策略再训练，模型有机会从已有数据和自身交互中继续改进，逐步走向真正意义上的自我提升。我们在 LIBERO 和真机任务上复现的结果也确实表明这一思路的可行性。

不过，这仍然只是一个起点。真实机器人落地远比标准 benchmark 更复杂：物体摆放、光照条件、相机标定、接触动力学和执行误差，都会不断制造新的分布偏移。RLinf 提供的不止于RECAP 复现，而是一套可复现、可扩展、可持续迭代的基础设施，让更多研究者能够在同一套平台上验证想法、比较方法，并推动机器人策略在真实世界中越做越好。若大家在使用 RLinf 时遇到问题，欢迎扫描下方二维码加入交流答疑群，一起探讨。

END