清华大学最新!πRL:用在线强化学习让机器人 “边学边做” 的通用方案

具身智能之心 2025-11-03 08:00

AI大模型最新新闻在机器人视觉 - 语言 - 动作(VLA)领域,“大规模强化学习(RL)适配流式模型” 一直是难以跨越的鸿沟 ——现有方案要么受限于监督微调(SFT)的数据集依赖,面对新任务泛化能力骤降;要么因流式模型迭代去噪过程的 “动作对数似然难计算” 问题,无法将 RL 的环境交互优势融入其中。

而来自清华大学、北京大学、中科院自动化所等团队联合提出的,用 “Flow-Noise 与 Flow-SDE 双算法 + 并行仿真训练” 的创新框架,打破了这一僵局:既解决了流式 VLA 模型的 RL 适配难题,又通过在线交互大幅提升模型性能与泛化性,最终在多任务基准测试中实现 “从 SFT 瓶颈到近满分性能” 的突破。

AI大模型最新新闻:清华大学最新!πRL:用在线强化学习让机器人 “边学边做” 的通用方案

为什么要重新定义流式 VLA 模型的训练范式?

当前 VLA 模型训练陷入 “两难困境”:SFT 依赖大规模专家轨迹,成本高且泛化弱;RL 虽能通过环境交互优化,但无法适配流式模型的核心特性,核心问题可归结为 “流式 VLA 模型的 RL 适配存在根本性障碍”:

方案类型
代表思路
核心缺陷
传统 SFT 方案
基于专家演示数据微调流式 VLA
1. 高质量专家轨迹采集成本高、周期长;2. 模型易过拟合演示数据,面对新任务(如长序列抓取)性能暴跌;3. 无法通过环境交互动态优化动作策略
现有 RL 方案
直接将 RL 用于自回归 VLA 模型
1. 适配对象局限于离散动作的自回归模型(如 OpenVLA),无法处理流式模型的连续动作生成;2. 流式模型的迭代去噪过程导致 “动作对数似然难计算”,无法满足 RL 的梯度更新需求;3. 确定性 ODE 去噪缺乏探索性,难以在 RL 中实现环境交互优化

这些方案都忽略了一个关键:流式 VLA 模型(如 )凭借 “高频动作块生成” 和 “高灵巧性任务适配” 优势,本应是机器人复杂操控的理想选择,但 RL 适配难题使其无法发挥潜力。正是针对这一痛点 —— 通过创新的 “噪声注入” 与 “MDP 建模” 策略,解决流式模型的 RL 适配核心障碍,同时保留 RL 的在线优化能力,实现 “从演示学习到交互进化” 的闭环。

:如何用 “双算法 + 并行仿真” 实现流式 VLA 的 RL 优化?

的核心设计可概括为 “不回避流式模型的去噪特性,而是将其转化为 RL 适配的优势”。它通过 Flow-Noise 与 Flow-SDE 两种互补算法,解决 “动作对数似然计算” 与 “探索性不足” 两大难题,再结合并行仿真训练实现大规模任务适配,具体分为三个关键模块:

AI大模型最新新闻:通过 Flow-Noise 与 Flow-SDE 两种互补算法

核心矛盾破解 —— 两种算法解决流式模型的 RL 适配难题

流式 VLA 模型的 RL 适配核心障碍是 “迭代去噪导致动作对数似然难计算” 和 “确定性 ODE 缺乏探索性”。提出两种针对性方案:

方案 1:Flow-Noise—— 用 “可学习噪声网络 + 单层 MDP” 计算精确对数似然

Flow-Noise 的核心思路是 “将去噪过程建模为离散时间 MDP,通过可学习噪声网络引入探索性并计算对数似然”,具体步骤如下:

AI大模型最新新闻:核心矛盾破解两种算法解决流式模型的 RL 适配难题

方案 2:Flow-SDE——用 “ODE 转 SDE + 双层 MDP” 平衡探索与效率

Flow-SDE 的核心思路是 “将确定性 ODE 去噪转化为随机 SDE,通过双层 MDP 耦合去噪过程与环境交互”,解决探索性与计算效率的平衡问题:

其中为噪声调度,为维纳过程,确保探索性的同时不破坏动作分布合理性;

策略优化——PPO 算法与适配设计

解决 RL 适配难题后,采用 proximal policy optimization(PPO)算法进行策略优化,并针对流式 VLA 模型的特性做了两点关键适配:

AI大模型最新新闻:采用 proximal policy optimization(PPO)算法进行策略优化

并行仿真训练——支撑大规模多任务优化

为验证 的大规模适配能力,团队构建了 “多基准 + 高并行” 的训练环境:

实验结果:如何实现 “性能与泛化双突破”?

在 LIBERO 与 ManiSkill 两大基准的实验中,全面验证了其在 “性能提升”“泛化能力”“大规模适配” 上的优势,核心结论可概括为 “SFT 瓶颈被彻底打破,多任务泛化能力拉满”。

LIBERO 基准:从 “部分成功” 到 “近满分” 的跨越

LIBERO 包含 Spatial(空间任务)、Object(物体任务)、Goal(目标任务)、Long(长序列任务)四大子任务,针对 “少样本 SFT” 的痛点,实现性能飞跃:

AI大模型最新新闻:针对少样本 SFT的痛点,实现性能飞跃

关键亮点:

清华大学最新!πRL:用在线强化学习让机器人 “边学边做” 的通用方案图6

ManiSkill 基准:4352 种任务的大规模适配验证

ManiSkill 基准包含 SIMPLER(4 类标准任务)与 MultiTask(4352 类抓取 - 放置任务),在大规模场景下仍保持性能优势:

SIMPLER 任务(以 为例)

AI大模型最新新闻:MultiTask 任务(4352 种组合)

MultiTask 任务(4352 种组合)

AI大模型最新新闻:大规模任务适配在 4352 种任务组合下

关键亮点:

消融实验:关键设计的有效性验证

为明确各模块的贡献,团队进行了全面消融实验:

AI大模型最新新闻:消融实验:关键设计的有效性验证

算法选择:PPO 在收敛速度与最终性能上均优于 GRPO(如 的 Long 任务 PPO 为 90.2%,GRPO 仅为 81.4%);

AI大模型最新新闻:PPO 在收敛速度与最终性能上均优于 GRPO

评论家设计的 VLM 接入评论家()比动作专家接入()的价值损失低 30%,解释方差高 15%,证明 VLM 的泛化能力可辅助价值预测;

AI大模型最新新闻:Flow-SDE 的双层 MDP 比单层 MDP 的训练时间减少一半

MDP 结构:Flow-SDE 的双层 MDP 比单层 MDP 的训练时间减少 50%,同时保持相近性能(平均差异 < 1%);

AI大模型最新新闻:过高噪声会导致动作失真

超参数影响:噪声水平 a=0.5、去噪步骤 K=4、动作块 H=5 时性能最优,过高噪声会导致动作失真,过多去噪步骤会增加计算成本。

关键结论与未来方向

的价值,在于为 “流式 VLA 模型的 RL 优化” 提供了首个完整、开源的解决方案,核心启示与未来方向如下:

核心结论

流式模型的 RL 适配关键在 “建模去噪过程”:Flow-Noise 与 Flow-SDE 通过不同思路将去噪过程转化为 RL 可处理的 MDP,证明 “不回避流式特性,而是针对性建模” 是突破瓶颈的关键;

少样本 SFT+RL 是性价比最优路径:仅用少量专家轨迹初始化,再通过 RL 在线优化,即可超越全数据 SFT 性能,大幅降低数据采集成本;

并行仿真支撑大规模任务:320 个并行环境 + 混合采样策略,使 能处理 4352 种任务组合,为通用机器人操控奠定基础。

未来方向

噪声注入策略优化:当前 ODE-to-SDE 转换仍存在少量动作分布偏差,未来可结合 “系数保持采样”(Flow-CPS)进一步降低偏差;

分布外泛化提升:OOD 场景(如语义新颖性)的性能仍有差距,需探索 “RL + 预训练知识融合” 策略;

真实世界迁移:目前实验以仿真为主,未来需验证 在真实机器人(如 Shadow Hand)上的适配性;

多模态融合:结合触觉、力觉等多模态观测,进一步提升复杂场景(如柔性物体抓取)的鲁棒性。

总结

的出现,打破了 “流式 VLA 模型无法用 RL 优化” 的固有认知——它没有试图将流式模型改造为自回归模型,而是通过创新的算法设计,让 RL 适配流式模型的特性。对于追求 “高灵巧性 + 大规模泛化” 的机器人应用(如工业装配、家庭服务),这种 “兼顾性能与实用性” 的方案,不仅为流式 VLA 模型的落地提供了清晰路径,更推动了 “基础模型 + 强化学习 + 机器人控制” 的跨领域融合,为通用机器人的发展注入关键动力。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
more
我们搞了一台没脑袋的机器人,看它能不能干点人事
全球首个家务机器人开卖!月租3600,拿瓶水要1分钟,还得真人遥控
特斯拉人形机器人Optimus现身纽约时代广场,向路人派发糖果
十年苦修,汉阳扫雪机器人的豪赌
机器人的灵巧手电机该怎么做?看看大厂的思路...
净利润激增232.35%!国内工业机器人龙头发布第三季报
国内首款鸿蒙人形机器人亮相
0产品估值284亿!人形机器人创企又拿新融资
新动作!美的全资子公司更名库卡机器人自动化
人形机器人量产前夜:兆易创新如何以“MCU+模拟+存储”破局落地瓶颈?
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号