从 “模仿者” 到 “学习者”，机器人的进化更进一步。

作者丨刘欣

编辑丨陈彩娴

机器人在底层控制方面的应用始终局限于行为克隆，这种类似于照猫画虎的学习方式，要求机器人必须依赖海量标注的模仿数据，不仅收集成本极高，更无法让机器人应对训练数据之外的全新场景。

谷歌 DeepMind 的最新研究试图打破这一现状，他们受到大型语言模型微调中强化学习阶段成功经验的启发，提出了一种面向机器人学的两阶段后训练方法，第一阶段是监督微调（ Supervised Fine-Tuning, SFT ），第二阶段是自我提升（ Self-Improvement ）。

通过在真实世界与仿真机器人实体（ LanguageTable 与 Aloha ）上开展的大量实验，提出的后训练方法在具身基础模型上取得了显著成果，机器人能自主练习并习得元朝训练时模仿学习数据集中所观察到行为的新技能，并实现广泛泛化。

论文链接：https://arxiv.org/pdf/2509.15155

两阶段后训练框架

本研究的核心是探究强化学习后训练在机器人具身基础模型中的有效性。然而，机器人强化学习（尤其是操作任务）面临的关键挑战是奖励工程问题：设计有效的奖励函数需要反复迭代训练策略并修正奖励定义以规避非预期结果；此外，即便奖励定义完美，在真实世界中测量奖励也需要大量工程投入。因此，当团队致力于训练能够完成日益广泛任务的机器人时，人工设计奖励函数在真实世界机器人学中已难以为继。

DeepMind 通过学习数据驱动型奖励函数克服了这一障碍，该函数同时继承了底层基础模型经网络级预训练所具备的稳健性与泛化性。提出的后训练框架如上图所示，包含两个阶段：第一阶段为监督微调（ Supervised Fine-Tuning, SFT ），利用以下两种目标对预训练基础模型进行微调：a) 行为克隆；b) 剩余步骤预测（ steps-to-go prediction ）。第二阶段为自我提升（ Self-Improvement ），剩余步骤预测能够助力提取平滑的奖励函数与稳健的成功检测器，使机器人集群可在极少人工监督的情况下自主练习下游任务。至关重要的是，数据驱动型奖励设计无需真值奖励，且能借助底层基础模型的稳健性与泛化性。

研究首先在第一阶段先对模仿数据集进行假设，再基于数据集以预训练基础模型初始化具身基础模型，对行为克隆损失、剩余步骤预测损失这两个目标进行监督微调。在第二阶段，则是想通过在线强化学习对具身基础模型进行下游任务微调，以快速提升策略性能。研究对奖励函数和成功指示器进行了定义，即可对具身基础模型进行下游任务的在线强化学习微调，冻结了一个第一阶段的检查点用于奖励函数计算与成功检测，同时也从第一阶段检查点初始化第二阶段的策略。

研究提出了以下问题：

Q1：自我提升能否在监督学习阶段的基础上进一步提升下游任务性能？
Q2：监督学习与自我提升的结合是否比单纯的监督学习具有更高的样本效率？
Q3：依赖强化学习的自我提升方法是否足够可靠且可复现，能够应用于真实世界机器人学？
Q4：预训练对自我提升流程有何贡献？
Q5：网络级基础模型预训练能否使自我提升在超出模仿数据集覆盖范围的任务上生效？

从“模仿者”到“学习者”

DeepMind 基于 LanguageTable 与 Aloha 两种机器人实体，在仿真与真实世界环境中开展实验，来验证所提自我提升框架的有效性，研究全程采用 30 亿参数的 PaLI 视觉 - 语言模型作为基础预训练模型。研究主要进行了6个实验来回答上述问题，分别是：

（1）仿真 LanguageTable 实验

仿真 LanguageTable 领域第一阶段策略训练所使用的数据集来自原始研究，包含 181,020 条人类生成轨迹，以及 78,623 条描述轨迹目标的独特指令。对该数据集进行子采样，生成 3 个新数据集（原始规模的 10%、20% 和 80%）。针对每个数据集规模，在第一阶段训练后，采用 3 个随机种子进行第二阶段微调，以验证自我提升流程的可靠性。第二阶段微调聚焦于 Block2Block 任务子集（例如 “将蓝色月亮形状块移至红色五边形形状块处”），当策略成功率趋于稳定时停止训练。

（2）真实世界 LanguageTable 实验

上述实验中展现的高样本效率与稳健性表明，自我提升流程确实可应用于真实世界机器人学。研究将所提方法应用于真实世界 LanguageTable 领域，分别采用 20% 和 80% 规模的模仿学习数据集。与仿真场景相同，第二阶段微调聚焦于 Block2Block 任务子集。由于指令采样、奖励标记与成功检测均为自动化流程，在自我提升阶段，一名人类操作员即可监控所有 LanguageTable 机器人工作站。操作员的唯一职责是在积木掉落桌面或工作站超过 5 分钟未洗牌重置时进行重置。每个实验持续约 20 小时。

（3）仿真 Aloha 单插入任务实验

研究还在第二种机器人实体 —— 双臂 Aloha 操作平台上验证了所提微调框架。设计并收集了双臂插入任务的数据：左臂拿起套筒，右臂拿起插销并将其插入套筒。该任务具有更复杂的观测空间、70 维动作空间以及更小的模仿数据集，为验证所提方法提供了挑战性场景。

研究还构建了 3 个规模分别为 5K、10K 和 15K 片段的模仿数据集，对 5K 和 10K 规模数据集执行两阶段微调，并报告 15K 规模数据集的监督学习结果以作对比。与 LanguageTable 领域实验相比，本实验的方法差异在于：1）第二阶段策略初始化的检查点选择；2）由于相机无法观测到插销完全插入套筒的成功条件，在奖励函数中加入了一个小的正常数以标记成功状态。

（4）基础模型预训练实验

为消融 PaLI 中嵌入的多模态知识的影响，实验基于 PaLI 模型的变体开展两阶段微调：

随机初始化（ Scratch ）：采用 PaLI 架构，但参数随机初始化。
单模态 PaLI（ Uni-PaLI ）：PaLI 参数由单独预训练的视觉模型与语言模型初始化，未进行联合多模态视觉 - 语言微调。

在仿真 LanguageTable 领域采用与第一个实验相同的设置进行对比实验。将消融实验聚焦于自我提升阶段：从 PaLI 第一阶段检查点初始化策略，使用随机初始化或 Uni-PaLI 检查点进行奖励计算。

（5）仿真与真实世界间的域迁移

首先探究较简单的泛化形式 —— 仿真与真实世界间的域迁移。Sim2Real 是一类重要方法，可大幅减少训练高性能机器人策略所需的真实世界经验，并已在多个场景中成功应用。为简化实验，在 LanguageTable 领域探究反向问题 ——Real2Sim 迁移：使用 80% 的真实世界 LanguageTable 数据集训练第一阶段模型，在仿真 LanguageTable 环境中执行第二阶段自我提升。

（6）习得新技能的强泛化能力

为了进一步探究更强的泛化形式：预训练基础模型的自我提升能否使策略练习并习得超出第一阶段模仿数据集所观察到的全新行为技能。基于真实世界 LanguageTable 数据集训练的策略与奖励模型，在一个名为 “BananaTable” 的新任务上执行自我提升。

与以往研究中机器人基础模型的语义泛化能力不同，BananaTable 任务的迁移需要行为泛化，要求策略习得新技能。例如，由于香蕉的细长几何形状，推击位置不准确会导致香蕉自转而非按预期方向移动，如下图所示。

迈向自主学习新路径

通过在 LanguageTable 与 Aloha 两种机器人实体的真实与仿真环境中开展大量实验，DeepMind 证实了所提新型后训练框架的惊人有效性。首先，自我提升不仅能稳健地超越行为克隆的策略性能，且监督微调与自我提升的结合在样本效率上远优于单纯扩大模仿数据规模的监督学习。例如，在 LanguageTable 领域，仅增加 10% 的机器人自我提升训练时间，就能将策略成功率从 45% 提升至 75%；而将机器人模仿数据量增加 8 倍，成功率仅从 45% 提升至 60%。进一步的消融实验凸显了基础模型预训练在实现这一样本效率与稳健性中的核心作用。

更为振奋人心的是，在线自我提升与网络级预训练的创新结合，还解锁了现有方法无法实现的独特能力：使机器人能够自主练习并习得新技能。与以往研究中展示的语义泛化不同，这个组合方案实现了行为泛化，其范围远超第一阶段模仿数据所覆盖的行为。本研究凸显了将预训练基础模型与在线自我提升相结合的变革性潜力，为机器人自主技能习得开辟了新路径。

虽然这项研究在机器人自主学习新技能上取得了巨大的进步，但在一些方面仍具有局限性：第一，样本片段与技能边界的规模化标注：人工标注成本过高，需要创新策略（如利用现有多模态基础模型）从原始交互日志中恢复一致的边界。探索此类自动分割方法是未来研究的重要方向。第二，在这个框架中，奖励推断无实时性要求，延迟约束极小，因此可使用更大规模的模型 —— 甚至迭代式、思维链推理 —— 以获得更高保真度的标记。

第三，本研究微调的通用视觉 - 语言骨干网络在预训练阶段从未接触过机器人数据。随着更大规模的机器人经验多模态语料库的出现，设计预训练课程至关重要 —— 既要赋予具身基础模型强大的物理推理先验，又要保留其广泛的视觉 - 语义知识。

第四，研究选择使用不重用数据的在线 REINFORCE 算法。这一选择规避了 “致命三要素” 中的两个要素：自举法与离线学习。但该选择也放弃了现代离线算法的数据重用优势。探究可扩展至大型模型的离线变体有望进一步降低机器人时间需求。

最后，团队观察到，当自我提升超出性能峰值后，成功率会下降，这表明需要更好的停止准则或自适应正则化器，以避免对塑形奖励的过度优化。对奖励函数选择的理论探究也可能揭示这种性能下降的原因。