开源了!pi*0.6 算法RECAP

具身智能之心 2026-06-08 08:57

点击下方卡片,关注“具身智能之心”公众号


如果说 π0、π0.5 让 VLA模型逐渐学会看懂任务并执行动作,那么 π*0.6 的出现,则把具身智能社区的注意力重新拉回到一个更本质的问题上:机器人能否不只是模仿人类演示,而是在真实执行、失败、纠正和反复练习中积累经验,变得更强?Physical Intelligence 在 π*0.6 中使用的核心方法 RECAP,全称是 RL with Experience and Corrections via Advantage-conditioned Policies。它试图解决的关键问题是:如何把真实机器人在执行过程中积累的成功、失败和纠错经验,转化为可用于策略提升的训练信号。

也正是从 π*0.6 开始,具身智能圈掀起了一波新的强化学习热潮。但当前openpi官方代码库主要包含监督学习的实现,缺少价值函数训练、优势条件策略架构等 RECAP 关键训练组件。业内普遍存在复现瓶颈:缺少正确、简易上手、可复现实验、检查中间结果的开源代码。

最近我们看到,RLinf 团队推出了开源、可复现的版本。RLinf 将 RECAP 分解成可以执行、可以调试、可以验证的工程链路:完成了回报计算、价值模型训练、优势估计,到基于优势条件(Advantage Conditioning)的策略优化等核心组件的开发,最终在 LIBERO 仿真环境和真机叠毛巾任务中完成验证。

代码链接:RLinf GitHub:https://github.com/RLinf/RLinf

RLinf RECAP 使用文档链接:https://rlinf.readthedocs.io/zh-cn/latest/rst_source/examples/embodied/recap.html



01

RLinf 如何复现 RECAP

在 RLinf 中,RECAP严被拆成四个连续阶段,如图1所示。

■Step 1:Compute Returns。

系统会对数据集中每条轨迹逆序计算折扣回报。对于专家数据和rollout的成功轨迹,使用每步 -1、终止步 0 的奖励设计;对于 rollout的失败轨迹,则可以对失败终止步加入c_fail的额外惩罚。

■Step 2:Value Model SFT。

有了回报之后,进一步训练一个价值模型,让它从图像观察和语言指令中预测当前状态的归一化回报。价值模型由 SigLIP2 视觉编码器、Gemma3 语言模型和可学习 Critic Expert 组成,并采用分布式价值预测方式。这一步是在回答:机器人走到当前这个状态,距离最终成功还有多远?

■Step 3:Compute Advantages。

价值模型训练好之后,RLinf 会用它对数据集中每个时间步计算优势值。直觉上,如果一个动作让后续状态的价值变高,它就是好动作;如果让价值变低,它就可能是导致失败的动作。RLinf 使用 N 步前瞻优势估计,并支持按照分位数阈值把样本标成正样本或负样本。默认优势值 top 30% 的样本会被标记为正样本。

■Step 4:CFG Training。

最后,RLinf 使用优势标签训练策略模型。正样本作为条件输入,负样本作为无条件输入;推理时则通过 guidance scale 控制模型向高优势动作偏移。

整个流程的关键在于,RLinf 将 RECAP 的每一步都显式拆开:return 文件、value checkpoint、advantage 标签和策略训练数据都可以被单独检查和替换。同时,系统还提供优势分布、正样本比例和 episode 回放等可视化工具,方便用户复核中间结果,而不是只看到最终的策略性能。

开源了!pi*0.6 算法RECAP图1

图 1  RLinf RECAP 四阶段工作流

02

LIBERO 仿真验证

为了方便真正上手验证,RLinf 在 LIBERO-10 Task 0 上提供了完整的 RECAP 可复现实验(数据集已开源:https://huggingface.co/datasets/RLinf/RECAP-Libero10-Task0-48succ-Data)。在这套实验中,SFT 数据来自 LIBERO-10 的专家演示成功轨迹;Rollout 数据来自 few-shot π0.5 策略在 Task 0 上采集的 4096 条轨迹,包含成功和失败 episode。RECAP 使用这些含失败轨迹的数据,并尝试从这些非完美经验里提炼可用于策略改进的信号。在 LIBERO-10 Task 0 上执行一轮 RECAP 迭代后,成功率从 48.8% 提升到 66.5%,绝对提升 17.7 个百分点。

开源了!pi*0.6 算法RECAP图2

图 2  LIBERO-10 Task 0 上 RECAP 前后成功率对比

对于想研究 RECAP 的开发者来说,这意味着不再需要从零还原训练细节;对于想做算法改进的研究者来说,这意味着可以基于同一套流程替换 reward、value model、advantage threshold、policy extraction 方式,进行更系统的对比实验。

03

真机任务测试

这套方法在真实机器人上是否也有效果?为了回答这个问题,我们进一步在真机上进行叠毛巾任务的测试,对比 π0 SFT baseline 与 RECAP 的任务成功率。叠毛巾是一个典型的长程双臂操作任务,包含抓取、展开、对齐和连续折叠等多个步骤,对策略的稳定性和纠错能力要求较高。实验中,我们共使用 240 条专家遥操作采集数据、125 条策略自主 rollout 数据,以及 20 条人类干预的 DAgger 数据,用于构建真实机器人上的训练与评估流程。

开源了!pi*0.6 算法RECAP图3

图 3  真机叠毛巾测试

实验结果显示,RECAP 在真实机器人叠毛巾任务上带来了明显提升。相比仅使用专家示范数据训练的 π0 behavior clonine (BC) baseline,RECAP 在引入策略自主 rollout 数据和 DAgger 数据后,将任务成功率从 33.3% 提升到 55.6%,绝对提升 22.3 个百分点。

这组结果验证了 RECAP 的核心假设:混合质量数据并不只是噪声来源,只要能够通过价值模型识别出其中更有利于任务完成的片段,策略就可以从自主 rollout 和人类干预数据中提取有价值的行为,从而进一步提升真机操作任务的完成能力。

开源了!pi*0.6 算法RECAP图4

表 1  真机叠毛巾测试结果

04

总结与展望

π*0.6 让我们看到,机器人基础模型并不只能仅停留在模仿专家样本阶段。通过价值评估、数据筛选和策略再训练,模型有机会从已有数据和自身交互中继续改进,逐步走向真正意义上的自我提升。我们在 LIBERO 和真机任务上复现的结果也确实表明这一思路的可行性。

不过,这仍然只是一个起点。真实机器人落地远比标准 benchmark 更复杂:物体摆放、光照条件、相机标定、接触动力学和执行误差,都会不断制造新的分布偏移。RLinf 提供的不止于RECAP 复现,而是一套可复现、可扩展、可持续迭代的基础设施,让更多研究者能够在同一套平台上验证想法、比较方法,并推动机器人策略在真实世界中越做越好。若大家在使用 RLinf 时遇到问题,欢迎扫描下方二维码加入交流答疑群,一起探讨。

开源了!pi*0.6 算法RECAP图5
开源了!pi*0.6 算法RECAP图6


END

 推荐阅读 :

开源了!pi*0.6 算法RECAP图7


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
小米MiMo-V2.5开源在即,国产AI从追赶迈向领跑新阶段
多模态模型终于不用「抽帧看世界」?LLaVA-OneVision-2.0全开源全帧率技术解读
开源了!pi*0.6 算法RECAP
5分钟AI长视频不翻车!国产开源框架杀到全球第一梯队
字节开源统一框架Bernini:给DiT配个“大模型军师”,AI视频编辑先理解再动手
腾讯混元Hy3 preview开源:295B参数重塑AI实战性价比
大晓机器人开源中国家庭全屋3D数据集:30万真实户型、5000个可交互场景,仿真到现实迁移周期大幅缩短
看完英伟达开源的Cosmos3后,感觉物理AI的最优开源底座又被它占了......
CVPR'26开源|扩散模型不再是3D点云生成最优解?PointNSP提出「下一尺度预测」新范式
生物学变天:小扎的新开源模型,彻底掀翻谷歌AlphaFold王座!
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号