缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

量子位 2025-09-26 10:01
SimpleVLA-RL团队 投稿
量子位 | 公众号 QbitAI

视觉-语言-动作模型是实现机器人在复杂环境中灵活操作的关键因素。

然而,现有训练范式存在一些核心瓶颈,比如数据采集成本高、泛化能力不足等。

为此,研究团队提出了SimpleVLA-RL。基于veRL框架,他们实现了针对VLA模型的交互式轨迹采样与并行仿真渲染机制。

缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈图1

SimpleVLA-RL通过 “交互式轨迹采样+结果奖励+探索增强” 的设计,解决了VLA模型训练的三大核心瓶颈:

实验结果表明,该框架在LIBERO与RoboTwin等标准基准测试中均实现了SoTA的性能。更为关键的是,即便在有限数据的条件下,SimpleVLA-RL依然能够训练出表现优异的模型并具备极高的泛化能力。

在 “单轨迹 SFT”(每个任务仅1条演示数据)场景下,应用SimpleVLA-RL后,OpenVLA-OFT的LIBERO平均成功率从48.9%提升至96.9%,长时序任务LIBERO-Long从17.3%提升至91.7%

缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈图2

此外,模型在训练过程中还展现出自主探索能力,并涌现出新的操作策略,例如通过“推动”替代“抓取”的Pushcut现象。这些结果表明,SimpleVLA-RL为VLA模型的高效训练与泛化能力提升开辟了新的研究路径。

SimpleVLA-RL:端到端在线训练方案

VLA模型作为机器人操控领域的重要研究范式,旨在融合视觉感知、语言理解与动作生成,从而在复杂物理环境中实现灵活的任务执行。

现阶段的主流训练流程通常遵循 “大规模预训练+有监督微调” 的范式。然而,该方法在实际应用中面临两大核心瓶颈:

数据稀缺性

SFT依赖于大规模的高质量机器人操作轨迹,而此类数据的采集过程需要精心构建实验场景、涵盖多样化的交互对象,并依赖专业操作人员完成。由此导致采集成本高昂、规模受限,从根本上制约了其可扩展性。

泛化能力不足

SFT的学习过程高度依赖于任务与场景特定的数据分布,因而在面对分布外任务(out-of-distribution tasks)、全新环境或未见过的对象时,模型性能会显著下降,尤其在长时序依赖与组合型任务中尤为明显。

与此同时,大规模推理模型(如DeepSeek-R1)的最新进展表明强化学习在仅依赖结果奖励的情况下,也能显著提升模型的逐步推理能力。

这引出了一个自然的问题:RL能否同样有效地增强 VLA 模型在长时序任务中逐步规划动作的能力?然而将RL直接应用于VLA训练又面临一些独特挑战:

1、传统机器人RL往往依赖人工设计的过程奖励,该方式难以扩展至复杂的开放环境;

2、VLA的训练需要与物理或高保真模拟环境进行多轮交互,训练效率低,成本远高于基于文本的LLM推理优化。

缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈图3

基于上述问题,研究团队出了SimpleVLA-RL,它是在veRL(LLM强化学习框架)上扩展的一套端到端在线训练方案,专门针对VLA模型的特点做了优化。

整体设计主要包含四部分:

首先是交互式轨迹采样。与LLM仅依赖文本token采样不同,VLA必须在闭环中不断更新视觉观测和机器人状态。

因此,SimpleVLA-RL让模型直接输出动作token的概率分布,用随机采样生成多样轨迹。整个过程中,机器人执行动作后环境返回新状态,再继续生成,直到任务完成。

其次是结果奖励建模。研究人员不再使用复杂的过程奖励(如距离目标远近),而是采取极简的二元结果:

任务成功记为1,失败记为0,并将这个奖励均匀分摊到整个轨迹的动作token上。

这样一来,不仅避免了过程奖励在不同任务间的不可迁移性,也省去了针对任务调参的麻烦,更好地聚焦了训练目标。

第三是探索增强。VLA模型很容易因为训练数据过于单一而收敛到狭窄解法,从而导致rollout的轨迹高度同质化进而影响GRPO的优势估计。

为了解决这个问题,SimpleVLA-RL在三个地方做了调整:

最后是训练目标。基于上述的一系列改进,团队进一步对GRPO做了简化:移除了KL散度正则项,不再依赖参考模型,从而减少内存消耗,也让新行为的探索不受束缚。

缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈图4

研究团队的主要贡献可以总结为如下几点:

构建VLA专属高效RL框架:基于veRL扩展,加入VLA交互式轨迹采样、多环境并行渲染及 “训练-推理-渲染” 一体化设计,解决VLA与环境交互慢、成本高的问题,支持规模化训练。

最优性能:团队引入了探索增强策略,使性能稳定提升10–15%。在LIBERO与RoboTwin 1.0 & 2.0等基准上,SimpleVLA-RL超越多个现有SoTA模型。

数据效率与泛化能力:仅需单个演示轨迹,RL即可将LIBERO-Long的成功率从17.1%提升至91.7%,并在空间、物体与任务泛化上显著优于SFT。

真实世界可部署性:仿真环境中训练的策略能够有效迁移至真实机器人,实现强大的仿真到现实(sim-to-real)性能提升,无需额外的真实机器人数据。

发现 “Pushcut” 新现象:RL训练使模型自主探索出人类演示之外的新策略。

基准测试性能:刷新SOTA

SimpleVLA-RL基于OpenVLA-OFT(autoregressive VLA模型)实现,在三大基准测试(LIBERO、RoboTwin1.0、RoboTwin2.0)及真实世界任务中验证,核心结果如下:

LIBERO(单臂操控基准)

在Spatial、Object、Goal、Long四个任务集上,SimpleVLA-RL将OpenVLA-OFT 的平均成功率从91.0%提升至99.1%,其中长时序任务LIBERO-Long提升12.0个百分点(86.5%→98.5%),超越π₀(85.2%)、UniVLA(92.0%)等SOTA模型。

缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈图5

RoboTwin1.0(双臂操控基准)

四个任务平均成功率从39.8%提升至70.4%,其中 “Blocks Stack” 任务提升33.1个百分点(7.1%→40.2%)。

缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈图6

RoboTwin2.0(高多样性双臂基准)

覆盖短/中/长/超长时序12个任务,平均成功率从38.3%提升至68.8%,超越π₀(49.2%)和RDT(33.3%)。即使是需多轮交互的超长时序任务(如 “Put Bottles Dustbin”),也提升18.7个百分点。

缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈图7

在LIBERO的 “9个已见任务训练+1个未见任务测试” 实验中,SimpleVLA-RL与SF 表现出显著差异:

SFT:在已见任务成功率达90%以上时,未见任务出现 “灾难性遗忘”,部分任务成功率降至0%(如LIBERO-Goal的3个未见任务);

SimpleVLA-RL:所有未见任务成功率均提升,其中LIBERO-Object的 “Unseen Task 2” 提升36.5个百分点,LIBERO-Spatial 的 “Unseen Task 1” 从43.3%提升至71.8%,证明RL能学习通用技能而非过拟合特定数据。

缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈图8

仅使用仿真数据训练(无真实数据),在AgileX Piper机械臂上测试4个真实任务:

OpenVLA-OFT 的平均成功率仅17.5%,“Pick Bottle” 任务完全失败。

SimpleVLA-RL将平均成功率提升至38.5%,“Stack Bowls” 提升32个百分点(38.0%→70.0%),“Pick Bottle” 实现14%成功率,证明RL能增强仿真模型的真实环境适配性。

缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈图9

在RoboTwin 2.0的 “Move Can Pot” 与 “Place A2B Right” 两个任务中,SFT模型仅能复现演示数据中显式呈现的“抓取–移动–放置”操作序列。

相比之下,经过SimpleVLA-RL训练的模型能够自主探索并发现更高效的替代策略,例如直接通过“推”的方式将罐子移至目标位置。研究团队将这种现象定义为 “Pushcut”,其特征是能够突破人类演示模式限制,利用奖励信号探索并采纳演示外的路径。

他们认为其本质在于结果奖励并不约束具体动作模式,而是允许模型在满足任务目标的前提下,自主选择最优或更简洁的行为路径。

“Pushcut” 现象证明RL能让VLA模型超越人类演示的局限并探索更优策略,为未来自主、自适应VLA模型的研发提供了新范式。

缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈图10

论文链接:https://arxiv.org/pdf/2509.09674
Github链接:https://github.com/PRIME-RL/SimpleVLA-RL

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈图11

 

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 机器人
more
汽车产业关键赛道产业布局:低空飞行、AI大模型、辅助驾驶、座舱、底盘、域控等17个领域
京东的“他她它”App藏不住了!实测后:这个AI产品暴露了京东的野心
国产技术加速AI落地!2025人工智能计算大会发布“北京方案”
台积电与EDA伙伴借AI将芯片能效提升十倍
更先进的AI,就应该发生在“今天” | 甲子光年
阿里巴巴连发六款AI模型,价格打到骨折,创业公司和开发者狂欢
OpenAI两位首席最新采访信息量好大!终极目标是“自动化研究员”,招人并非寻找“最出圈”的人
标志卓信亮相上海工博会,AI驱动软件创新引关注
AI芯片厂商,从英伟达嘴里“抢蛋糕”
Gemini灵魂人物加盟xAI,马斯克亲自夹道欢迎!
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号