在仿真数据与海量真机之外，寻找第三条路！RL-Co：VLA 真机提升新范式

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

星球内有20多门3D视觉系统课程、200+场顶会直播、顶会论文最新解读、3D视觉算法源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研，欢迎加入！

在仿真数据与海量真机之外，寻找第三条路！RL-Co：VLA 真机提升新范式图1

模拟提供了一种可扩展且低成本的方式，用于丰富VLA的训练，减少对昂贵的真实机器人演示依赖。然而，大多数模拟-真实联合训练方法都依赖于监督式微调（SFT），这种方法将模拟视为静态的演示来源，并未利用大规模的闭环交互。因此，实际应用中的收益和泛化能力往往受到限制。近日，清华大学于超团队提出了一种基于强化学习（RL）的模拟-真实联合训练（RL-Co）框架，该框架在保留实际应用能力的同时，充分利用了交互式模拟。

方法遵循通用的两阶段设计：首先，使用真实和模拟演示的混合数据，通过SFT对策略进行预热启动；然后，在模拟环境中通过强化学习对其进行微调，同时针对真实世界数据添加辅助监督损失，以锚定策略并减轻灾难性遗忘问题。

实验使用两种具有代表性的VLA架构（OpenVLA和）在四个真实桌面操作任务上验证了该框架，观察到与仅基于真实数据的微调以及基于SFT的联合训练相比，提出的方法均取得了持续改进，其中OpenVLA在真实世界中的成功率提升了24%，提升了20%。除了更高的成功率外，RL联合训练还展现出了对未见任务变体的更强泛化能力，并显著提高了真实世界的数据利用效率，为利用模拟来增强真实机器人部署提供了一条实用且可扩展的途径。

论文标题：Beyond Imitation: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models
关键词：VLA（视觉-语言-动作）/后训练/仿真-真机协同训练/强化学习/真机成功率/数据效率
Arxiv: https://arxiv.org/abs/2602.12628
Codes: https://github.com/RLinf/RLinf

在仿真数据与海量真机之外，寻找第三条路！RL-Co：VLA 真机提升新范式图3 — 图 1. 训练范式对比：只用真机监督微调 / 仿真-真机混合监督微调 / 以及提出的 RL-Co

RL-Co的核心优势

一句话：用 监督微调（SFT）先把路铺好，再用仿真里的强化学习（RL）把能力练扎实，同时用少量真机数据“拉住”别跑偏——把仿真的“可交互”优势真正用起来。
真机性能飞跃（SFT co-training → RL-Co）：

OpenVLA：成功率 40.0% → 64.0%（+24.0%）
：成功率 45.9% → 66.2%（+20.3%）

泛化更稳：在未见物体/未见初始状态下，的掉点显著更小。
更省真机数据：Open Drawer 上，RL-Co（20 条真机） 的效果能对标/不弱于 基线（200 条真机）。
低成本仿真路线，不追求高成本的“细粒度孪生”：用 ManiSkill 构建任务对应环境，只抓住关键几何与相机视角，不去 1:1 还原材质、光照等低层视觉细节。

01. 背景：在“高成本重建”与“海量真机”之外，寻找第三条路

当前，具身智能正处于一场激烈的“数据与路线之争”中。

为了解决 VLA 模型在真机上“不敢动、学得慢、泛化难”的痛点，行业内主要分化出了两条截然不同的技术路线：

一条是“重构建”的极致仿真路线：近期，基于 3D 高斯泼溅（3DGS）等技术的高保真数字孪生备受关注。这条路线主张通过扫描真实场景、构建像素级对齐的“赛博空间”，让机器人在完美的仿真中“疯狂试错”。这种方法效果虽好，但对环境建模的精度要求极高，流程复杂，难以快速复用到每一个新场景。
另一条是“堆真机”的暴力美学路线：依赖大规模的真机遥操作数据采集。但这如同无底洞，边际成本极高，且单纯的模仿学习（BC）始终难以突破演示数据的分布边界。

那么，有没有一种更“轻量”、更“普适”的解法？

在上述“高举高打”的争论之外，另一支研究力量正在探索仿真-真机协同训练（Sim-Real Co-Training）的潜力。这条路线不追求 1:1 还原现实的极致画质，而是使用低成本的粗糙仿真，试图通过“混合双打”来解决问题。

然而，传统的协同训练往往走入了误区：它仅仅把仿真当成了“静态数据生成器”。

大多数工作只是把仿真轨迹混入真机数据中，继续做 SFT（监督微调）。这种做法虽然增加了数据量，却丢掉了仿真最核心的优势——可交互性。如果不利用强化学习（RL）在仿真里进行闭环探索，模型就永远只能是对轨迹的拙劣模仿，一旦遇到分布偏移（Distribution Shift），依然会发生误差累积。

RL-Co 正是在这个背景下诞生的。也试图回答一个关键问题：

如果我们既不想花大价钱搞“全拟真数字孪生”，又不想做“真机数据苦力”，能不能把 Sim-Real Co-Training 的范式升级一下？

RL-Co 给出的答案是：用 Sim 里的 RL 练“内功”（交互能力），用 Real 里的 SFT 练“招式”（规范动作）。通过这种范式证明了：并不需要昂贵的“完美孪生”，只要把低成本仿真里的交互用对，一样能实现真机性能的飞跃。

02. RL-Co 是什么？两阶段把“交互”和“真机能力”同时抓住

RL-Co 的核心很简单：先用 SFT 把策略“扶上马”（初始化），再用仿真里的 RL 让它“跑得更稳”（交互优化），同时用少量真机数据做正则，让它别在训练过程中把真机能力忘了。

在仿真数据与海量真机之外，寻找第三条路！RL-Co：VLA 真机提升新范式图4 — 图 2. RL-Co 两阶段流程：Stage I（混合数据 SFT 初始化）；Stage II（仿真 RL + 真机 SFT 正则）

设计 1：Stage I 用“仿真 + 真机”做 SFT 初始化

从预训练的 VLA 模型起步，混合真机演示和仿真演示进行监督微调。

这一步不求完美，但求“上道”：先把任务相关的真机知识快速灌进去，同时也让策略在仿真里达到“至少能做成一点”的水平，给后续 RL 一个靠谱的起点。

设计 2：Stage II 在仿真里做 RL，同时用真机 SFT 正则“拉住”分布

之后在仿真 RL 的优化目标里，加入一项真机 SFT 的正则项：

：靠仿真闭环交互最大化任务回报，把执行能力和鲁棒性练出来
：用少量真机轨迹做“锚点”，缓解 RL 过程中对真机能力的遗忘

03. 实验：四个真机任务 + 对应轻量仿真

在 4 个桌面真机任务上验证 RL-Co，并用 ManiSkill 搭建一一对应的仿真环境。值得注意的是，仿真侧重点是交互完整与相机/布局对齐，而不是追求逼真渲染。

03.1 任务（真机）

Pick and Place：抓取物体并放入目标容器
Push Cube via Instruction：按语言指令推动指定颜色方块
Open Drawer：打开抽屉（接触丰富）
Close Drawer：关闭抽屉

03.2 数据（真机 + 仿真）

真机演示（）：SpaceMouse 遥操作采集；每个任务 20–50 条成功轨迹
仿真演示（）：MimicGen 扩增；先把真机轨迹在仿真里 replay 当 seed，再剪掉长段无效自由空间运动；每个任务生成 1000 条成功轨迹

在仿真数据与海量真机之外，寻找第三条路！RL-Co：VLA 真机提升新范式图5 — 图 3. 真机与仿真环境对比：仿真不追求逼真外观，但足够支撑大规模交互训练

04. 结果：真机更强、分布外更稳、训练更不挑参数

结果一：真机成功率提升（OpenVLA 与都受益）

在仿真数据与海量真机之外，寻找第三条路！RL-Co：VLA 真机提升新范式图6 — 图 4. 真机成功率：只用真机 SFT、仿真-真机 SFT 协同训练、以及 RL-Co 对比

平均成功率（SR）提升：

OpenVLA：Real-only 16.5 → SFT 协同 40.0 → RL-Co 64.0（相对 SFT 协同 +24.0）
：Real-only 26.7 → SFT 协同 45.9 → RL-Co 66.2（相对 SFT 协同 +20.3）

分任务直观表现（SR）：

OpenVLA（RL-Co）：Pick&Place 58.8，Push Cube 68.3，Open Drawer 35.0，Close Drawer 95.0
（RL-Co）：Pick&Place 81.3，Open Drawer 65.0，Close Drawer 100.0（Push Cube 仍偏难）

结果二：分布外泛化更稳（未见物体/未见初始状态掉点更小）

在 Pick and Place（） 上测试两类分布外：未见物体、未见初始状态。RL-Co 在两种情况下的性能下降幅度更小：

在仿真数据与海量真机之外，寻找第三条路！RL-Co：VLA 真机提升新范式图7 — 图 5. 分布外泛化：未见物体/未见初始状态下，RL-Co 的掉点更小

结果三：训练更稳（SFT 比例敏感，但 RL 阶段收益更稳定）

SFT 的混合比例会显著影响协同训练的真机效果；而在完成 SFT 初始化后，RL-Co 在不同正则权重下都能带来稳定收益，并把成功率拉到高于各类 SFT-only 设置的水平：

在仿真数据与海量真机之外，寻找第三条路！RL-Co：VLA 真机提升新范式图8 — 图 6. 超参分析：SFT 协同训练对混合比例更敏感；RL-Co 的收益更稳定，并能把能力上限拉高

05. 数据效率：20 条真机 + RL-Co，对标 200 条真机基线

当真机专家数据扩展到 200 条，观察两类基线随真机数据量增长的效果，并与“固定 20 条真机”的 RL-Co 对照：

在仿真数据与海量真机之外，寻找第三条路！RL-Co：VLA 真机提升新范式图9 — 图 7. 数据效率：基线随真机数据变多而提升，但即使 200 条也难稳定超过仅用 20 条真机的 RL-Co

结论很直接：真机数据当然越多越好，但把仿真里的交互用对，往往更划算。

06. 消融：两阶段各自解决什么问题？

这里重点检查两件事：没有“初始化”，RL 还能不能练起来？以及 没有“真机锚点”，RL 会不会把真机能力练丢？

06.1 没有仿真 SFT 初始化：RL 很难有效推进

如果 Stage I 不用仿真数据做 SFT 初始化，直接从“只见过少量真机演示”的策略开始在仿真里做 RL，训练会变得非常慢：样本效率显著下降，长时间都难以学到有效行为（见图 8）。

在仿真数据与海量真机之外，寻找第三条路！RL-Co：VLA 真机提升新范式图10 — 图8. 没有仿真 SFT 初始化时，直接 RL 的样本效率显著变差

06.2 没有真机 SFT 正则：仿真里越练越强，真机上反而会忘

如果 Stage II 去掉真机 SFT 正则，策略会出现明显的“真机能力遗忘”。在消融设置里，成功率从 81.38% 降到 40.25%（见图 9）。这说明：仿真交互能把策略推向更高回报，但如果没有真机数据把分布“拉住”，提升可能无法稳定转化为真机收益。

在仿真数据与海量真机之外，寻找第三条路！RL-Co：VLA 真机提升新范式图11 — 图 9. 真机监督在两阶段都重要：Stage II 的真机 SFT 正则能显著缓解灾难性遗忘

07. 总结：RL-Co 的关键信息、意义与下一步

回到开头的问题：我们希望更充分地利用仿真的优势（可交互、可规模化），同时让提升真实发生在真机上。 RL-Co 给出的答案是一个“更工程可落地”的组合范式：

方法上：两阶段流程——Stage I 用真机+仿真做 SFT 初始化；Stage II 在仿真里做 RL 交互优化，并用真机 SFT 正则把策略分布锚定住。
效果上：在 4 个桌面真机任务、两类代表性 VLA（OpenVLA 与）上，RL-Co 带来一致的真机成功率提升；同时在分布外设置下掉点更小、训练对超参更不敏感；在 Open Drawer 上也体现了更好的真机数据效率（20 条真机即可对标更大规模真机数据的基线）。
机制上：仿真 RL 负责“把能力上限练出来”，真机正则负责“把能力留在真机分布里”；仿真 SFT 初始化则让后续 RL 变得可学、可收敛。