成功率提高57%，VLA+RL最新！CO-RFT：实现VLA模型的高效微调（北航&清华等）

点击下方卡片，关注“具身智能之心”公众号

作者丨Dongchi Huang等
编辑丨具身智能之心
本文只做学术分享，如有侵权，联系删文

更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球(戳我)，这里包含所有你想要的。

写在前面&出发点

VLA模型在开发现实世界机器人控制的通用策略方面显示出巨大潜力。这一进展激励研究人员探索通过强化学习（RL）对这些模型进行微调。然而，使用RL对VLA模型进行微调仍然面临样本效率、与动作分块的兼容性以及训练稳定性等相关挑战。为了应对这些挑战，这里探索了通过结合动作分块的离线强化学习来微调VLA模型。提出了分块强化学习（Chunked RL），一种专门为VLA模型设计的新型强化学习框架。在该框架中，扩展了时间差分（TD）学习以纳入动作分块，这是VLA模型的一个显著特征。基于此框架，提出了CO-RFT算法，旨在使用有限的演示集（30至60个样本）微调VLA模型。首先通过全参数微调进行模仿学习（IL），以初始化主干网络和策略。随后，实施带有动作分块的离线RL来优化预训练策略。我们在现实世界环境中的实证结果表明，CO-RFT优于以前的监督方法，成功率提高了57%，周期时间减少了22.3%。此外，我们的方法表现出强大的位置泛化能力，在以前未见过的位置上达到了44.3%的成功率。

领域介绍

视觉-语言-动作（VLA）模型整合了感知和语言理解用于具身控制，在开发现实世界机器人控制的通用策略方面展现出良好潜力。这些模型基于大型视觉-语言模型，这些模型在互联网规模的数据上进行预训练，随后使用广泛的、异构的机器人演示数据集进行训练。这种范式取得了显著成功，展示了掌握各种任务的能力。然而，VLA模型的微调方法主要依赖于通过演示的行为克隆进行监督微调（SFT）。这个过程面临着重大挑战：模型的性能严重依赖于特定任务数据的质量和数量，并且难以泛化到分布外（OOD）场景。

强化学习（RL）有潜力解决SFT目前面临的挑战，为VLA模型的微调提供更有前景的解决方案。RL通过试错直接优化策略，能够突破专家数据的限制，实现纠正行为的学习和对以前未见过的场景的泛化。同时，最近在将RL应用于大型语言模型（LLMs）方面的突破表明，与SFT相比，RL可以带来显著更好的OOD性能。此外，有证据表明，离线RL能够学习比行为克隆更好的策略，这得益于Q学习能够优先考虑关键决策。借鉴先前研究中这些令人鼓舞的结果，人们进行了大量研究来探索使用RL微调VLA模型，并取得了令人印象深刻的性能成果，包括离线RL、在线RL和测试时RL。

尽管取得了这些令人鼓舞的成就，但在现实世界场景中将RL应用于VLA模型的微调仍然面临重大挑战。对于在线RL，必须建立必要的基础设施，以确保大型模型的自主学习和训练稳定性。然而，现有方法主要局限于模拟器；在现实世界环境中训练的方法要么局限于小规模VLA模型，要么通过在RL和IL之间迭代来规避这个问题。对于测试时RL，这种方法从策略中采样多个动作，使用价值函数对它们进行排序，并选择顶级动作执行。由于这种特性，此类方法只能产生微小的性能改进，同时延长推理时间。与上述范式相比，我们认为离线RL为VLA模型的微调提供了更可行的解决方案。离线RL在静态数据集上优化策略，从而消除了对在线RL所需基础设施的依赖。此外，离线RL直接优化策略而不损害推理效率，并且可以产生比测试时RL更好的策略。

受这些见解的启发，这里研究了通过结合动作分块的离线RL来高效微调VLA模型。动作分块是VLA模型中的一个普遍特征，它增强了动作的平滑性并减轻了非马尔可夫行为；然而，最近的研究中忽略了这一点。为了解决这个问题，我们提出了分块强化学习（Chunked RL），一种专门为VLA模型设计的新型强化学习框架。使用Transformer block实现 critic 网络。它接收当前状态和动作块作为输入，随后预测该动作块的一系列Q值。每个Q值负责预测所有的K步回报。然后利用所有Q值的平均值来优化动作块。先前的研究表明，在强化学习中纳入动作块可以提高样本效率、稳定性以及处理稀疏奖励设置的能力，这特别适合于VLA模型的微调。基于此框架，提出了CO-RFT：一种两阶段RL算法，旨在将VLA模型迁移到当前工作空间并提高其在下游任务中的性能。在第一阶段，通过全参数微调进行模仿学习（IL），以将VLM主干迁移到当前工作空间，并重新训练策略头以适应当前的具身。在第二阶段，实施带有动作分块的离线RL以进一步提高性能。我们在现实世界环境中的实证结果表明，CO-RFT优于SFT，成功率提高了57%，周期时间减少了22.3%。此外，我们的方法表现出强大的位置泛化能力，在以前未见过的位置上达到了44.3%的成功率。

一些预备知识

马尔可夫决策过程（MDP）。RL学习在给定环境中最大化累积奖励的策略，该环境被建模为MDP。形式上，我们考虑由元组定义的MDP，其中状态s和动作空间A都是连续的。这里，表示状态转移概率，是奖励函数，是折扣因子。RL的目标是找到一个策略，以最大化预期回报，即折扣未来奖励的总和，如。

离线RL。给定使用行为策略收集的离线数据集，我们的目标是使用离线数据集D训练一个好的策略π和价值函数。基于这个基本方法的离线RL算法在训练期间遭受动作分布偏移，因为策略评估中贝尔曼备份的目标值使用从学习到的策略π采样的动作，但Q函数仅在从产生数据集D的行为策略采样的动作上训练。由于π被训练为最大化Q值，它可能偏向于具有错误高Q值的分布外（OOD）动作。在标准RL中，可以通过在环境中尝试一个动作并观察其实际值来纠正这种错误。然而，在离线RL中，无法与环境交互使得处理OOD动作的Q值变得具有挑战性。典型的离线RL方法通过限制学习到的策略π远离OOD动作来缓解这个问题。CalQL施加了一个额外的正则化器，惩罚分布外（OOD）动作上的学习Q函数，同时补偿训练数据集中看到的动作的这种悲观主义。CalQL的训练目标如下：

其中是应用于延迟目标Q网络的备份算子，定义为。第二项是标准TD误差。第一项是一个保守的正则化器，旨在通过最小化策略π下的Q值来防止OOD动作的Q值被高估，并通过最大化遵循行为策略的数据集中动作的Q值来平衡。CalQL的保守正则化器如下：

提出这个项是为了确保学习到的Q值紧密匹配真实Q值的范围，从而防止在在线微调阶段发生遗忘。N步回报通过将多个未来时间步纳入目标来增强单步TD回报。与单时间步后进行自举不同，N步回报在采用当前价值估计进行自举之前聚合N步的奖励。这些估计通常比1步回报的偏差更小；然而，它们也表现出更大的方差。N步回报更新如下：

随着有效视野N的增加，价值可以向后传播N步（从到）。因此，的价值估计允许在视野N方面实现n倍的加速。由于n步回报的这种优势，它已被普遍采用在大规模RL系统中。

CO-RFT方法

下面为CO-RFT方法的框架图。

分块强化学习

这里旨在将Q学习应用于时间扩展的动作空间，以与VLA模型中的动作分块技术兼容。为了表示方便，使用表示h个连续动作的连接：。这里正式设计我们的actor-critic模型如下：

Unlike normal 1-step TD-learning methods,分块TD学习与训练Q函数和策略的学习方法不同。

相反，使用h个连续动作的跨度来训练critic和actor。在实践中，这涉及在由状态、动作序列和未来h步的状态组成的转换批次上更新critic和actor。

其中，是目标网络参数，通常是θ的指数移动平均值。的这种价值估计允许在价值可以向后传播的时间步数方面实现n倍的加速。

分块Critic训练目标，给定接下来的n个动作，critic的任务是输出该动作序列的所有N步回报（从1到N）。通过最小化其Q值估计与相应的N步回报之间的均方误差（MSE）来训练critic：使用以下TD损失训练，

分块Critic网络，Chunk RL需要学习H个Q值，并且相应地需要H个网络来实现此目的。然而，相关的计算成本过高。为了简化这个过程，如图2所示，采用自注意力和因果掩码，利用状态和动作块作为输入。在生成的(H+1)个嵌入输出中，最后H个输出对应于嵌入。随后，从这些嵌入中导出相应的Q值。这种设计只需要一个网络来学习所有Q值。

分块离线强化微调

CO-RFT包括两个训练阶段。在第一阶段，通过全参数微调执行行为克隆（BC），以初始化主干网络和策略。随后，采用带有动作分块的离线RL来优化预训练策略。

第一阶段：BC 由于现有的VLA架构是使用夹持器数据集和夹持器机器人进行训练的，必须首先将VLM主干和动作头迁移到我们的工作空间和机器人。通过远程操作收集了30个演示，并采用了具有以下目标的BC：

和分别表示专家演示中相应的状态和动作，表示学习到的行为克隆策略。

第二阶段：分块离线强化学习。我们旨在研究在离线强化学习框架下，如何利用相同的数据集实现比行为克隆更优异的性能。这种方法能够更有效地利用收集到的数据集，同时规避在线强化学习通常面临的稳定性、安全性和工程挑战。根据公式1和公式2，定义分块CalQL的 Critic 训练目标为：

为何选择CalQL？ 离线强化学习中仍然存在稀疏奖励和样本效率相关的挑战。为了缓解这些挑战，这里采用了分块强化学习。我们的算法基于CalQL，这是离线强化学习中最先进的算法。该算法旨在促进高效的在线强化学习微调，但方法不需要在线强化学习微调。这里也发现，校准机制有助于解决与稀疏奖励相关的问题。

实际实现

模型架构。在RoboVLMs上实现了我们的方法，该模型使用Kosmos2作为VLM主干。RoboVLMs利用LSTM或GPT架构来利用历史信息；其他VLA模型很少采用这种设计。遵循RoboVLMs的实现，基于TD3算法开发了我们的方法，TD3是公认的能够产生确定性动作的最先进的强化学习算法。

稀疏奖励考虑。稀疏奖励是现实世界任务中固有的一个实际特征，它对VLA模型的强化微调构成了重大障碍。我们发现，强化学习在稀疏奖励场景下的低效性部分源于对稀疏奖励信号的不准确预测。为了解决这个问题，引入了“奖励上采样”，这是一种简单的数据收集策略，在通过人类远程操作收集演示时记录额外的成功步骤。这种方法能够获取更多包含奖励信号的样本，从而减轻价值学习中的数据稀疏性问题。

实验分析

通过为灵巧手设计几个抓取和拾取任务，在现实世界任务上评估CO-RFT算法。对于每个任务，机器人会收到一个语言指令，该指令需要常识和物理知识来识别合适的抓取目标。随后，它根据视觉输入和本体感受信息执行动作。所有任务都在白色桌面、均匀照明条件下进行。通过我们的实验，我们旨在研究以下问题：

分块强化学习与标准强化学习和模仿学习相比表现如何？
分块强化学习能否提高VLA模型的样本效率和泛化能力？
数据多样性如何影响强化学习在VLA模型微调中的性能？

实验设置

硬件：实验在如图3所示的Realman单臂平台上进行，该平台配备了一个6自由度的机械臂。末端执行器采用的是Inspire公司的灵巧机械手，具有6个主动关节。头部安装了ZED2立体相机（水平视场110°×垂直视场70°），用于捕获RGB图像。

任务和数据集：在实验中，设计了6个具有挑战性的灵巧操作任务来评估所提出方法的有效性。使用应变计手套和定位相机作为远程操作设备，控制灵巧手进行数据收集。在为每个任务收集演示数据时，灵巧手的初始位置是固定的。物体的位置不固定，而是随机放置在一个矩形区域内。

指标：在实验中，机器人从头部相机接收两张图像，并根据自然语言命令抓取物体。当物体被灵巧手举到空中时，视为成功。使用成功率（SR）和平均周期时间（CT）来评估模型的性能。

实验结果

如图5和图6所示，CO-RFT显著优于SFT方法，平均成功率提高了57%，平均周期时间减少了22.3%。这种方法有效地掌握了多个任务，在6个任务中的4个任务中达到了近100%的成功率。值得注意的是，在抓取杯子、抓取消毒剂和取回马克杯这三个SFT方法一直失败的任务中，CO-RFT表现出了良好的性能。从图5a中可以观察到，SFT方法在大多数任务中都失败了。这一失败归因于为VLA模型提供的演示不足以让其充分学习这些任务。有证据表明，VLA模型使用SFT来有效获得一项新技能需要超过100个样本；然而，只有30个样本可用。相比之下，CO-RFT表现出显著改进的性能，有效地利用可用样本在评估的任务中实现了更高的成功率。这表明CO-RFT通过采用离线强化学习和分块强化学习实现了更好的样本效率。然而，我们观察到SFT和CO-RFT在抓取消毒剂和取回马克杯这两个任务中的成功率都较低。抓取消毒剂任务的挑战主要源于消毒剂的颜色与白色背景特别相似，这使得模型难以准确识别关键的抓取点。在取回马克杯任务中，模型必须抓住杯子的把手，这需要精细的操作，本身就难以掌握。尽管存在这些挑战，CO-RFT在抓取消毒剂任务中实现了36%的成功率，在取回马克杯任务中实现了30%的成功率，展示了区分细微视觉特征和发展精细操作技能的潜力。

周期时间比较：如图6所示，CO-RFT平均减少了22.3%的周期时间。这表明，通过整合强化学习，CO-RFT有潜力超越专家演示，实现更高效的策略。然而，CO-RFT在捏取立方体任务中没有表现出周期时间的改善。由于该任务的演示是从固定位置初始化的，数据多样性的缺乏阻碍了离线强化学习学习用于增强策略的富有表现力的价值函数。

位置泛化分析：如图7所示，在分布外（OOD）场景中，CO-RFT显著优于SFT。具体来说，CO-RFT的成功率比SFT提高了38%，并且在大多数任务中表现出更优异的性能。值得注意的是，在抓取杯子、抓取环和握持条形码扫描仪这三个任务中，CO-RFT分别达到了90%、50%和80%的成功率，展示了令人印象深刻的位置泛化能力。相比之下，当在相同的数据集上训练时，SFT在部署到不熟悉的位置时，在大多数任务中都无法充分发挥性能。这一证据表明，尽管离线强化学习缺乏从在线探索中学习的能力，但它仍然可以实现显著的泛化能力。

数据多样性的重要性： 如表1所示，数据多样性在CO-RFT的泛化能力中起着至关重要的作用。在IND场景中，无论采用何种数据集收集方法，CO-RFT始终能实现较高的成功率。这表明CO-RFT能够有效地掌握这些IND场景。然而，对在不同数据集上训练的CO-RFT的OOD性能进行检查后发现，存在显著差异。具体来说，在随机初始化的数据集上训练的模型仅表现出轻微的性能下降，幅度在10%到15%之间。相比之下，在固定初始化的数据集上训练的模型则经历了灾难性的性能下降，平均下降55.3%。这种现象与强化学习的原理一致，即包含更多样化的状态和动作的更全面的数据集会产生更准确的价值函数。因此，这提高了策略的性能和泛化能力。

参考

[1] CO-RFT: Efficient Fine-Tuning of Vision-Language-Action Models through Chunked Offline Reinforcement Learning.

资讯配图