改得越狠，机器人反而越不会干活：VLA 初始化到底该怎么做？

点击下方卡片，关注“具身智能之心”公众号

作者丨Weifeng Lin 等
本文只做学术分享，如有侵权，联系删文

更多干货，欢迎加入国内首个具身智能全栈学习社区：(戳我)，这里包含所有你想要的。

现在很多VLA模型，都会先采用一个会看图、会理解语言的 VLM 当“大脑底座”，再接上动作模块，让它学会动作控制。
但一个关键问题却还没被深入研究：这个 VLM 底座里，到底哪些能力对机器人有用？如果要把它改造成 VLA，是应该大刀阔斧地重训，还是尽量保住原来的能力？
来自CUHK和 ACE Robotics 的团队，对这个问题做了一组系统实验。结论很直接：VLM 原本的能力很重要，初始化 VLA 时，改得越狠，往往越容易把有用的东西改坏。

标题：Rethinking VLM Representation for VLA Initialization
作者：Weifeng Lin, Siyuan Huang, Hao Li, Tingwei Chen, Ruichuan An, Xinyu Wei, Jianbo Liu, Hongsheng Li
机构：香港中文大学、香港理工大学、北京大学、ACE Robotics
论文：https://arxiv.org/pdf/2605.25802
代码：https://github.com/AFeng-x/Rethink_VLA_Initialization

先说结论

好的 VLA 初始化，不是把 VLM 彻底改造成具身相关的专用感知模型，而是在保住原有能力的基础上，精准补进和动作相关的新能力。

这篇论文给出的经验可以概括成五点：

预训练 VLM 的“通用表征”很值钱，不能轻易丢掉。
给 VLM 补具身能力有用，但要对症下药，不是补得越多越好。
LoRA 这种轻量改造方式，比全量微调更稳。
底座模型越强，保留原始表征的价值越大。
机器人数据也有帮助，但最好分阶段注入，而不是所有信号特征一起硬塞。

为什么这个问题重要？

现在VLA主流做法是先拿一个预训练好的 VLM，比如 Qwen3VL, PaliGemma2等作为 VLA 的 backbone。然后再接一个动作输出模块，让模型从机器人数据里学习如何执行任务。

但问题是：

VLM 会看图说话，不代表它天然会控制机器人。

那它原来的能力到底有多少能有效迁移到机器人控制？是否必须要训练它更好地理解空间、定位、第一视角、任务规划？训练时是全模型都改，还是只加一点适配参数？

过去很多工作默认“用更强的 VLM 当底座”或者“多加具身相关的感知数据”。这篇论文则把问题拆得更细：到底什么样的 VLM 表征，才适合拿来初始化 VLA？

研究怎么做：把 VLA 初始化拆成三个问题

作者没有只比较几个模型分数，而是把 VLA 初始化当成一个“表征设计问题”来研究。

具体来说，他们围绕三个问题做对照实验。

第一，给 VLM 补什么能力？

论文把具身相关的 VQA 数据分成 7 类能力：

空间关系：比如物体在左边还是右边、远还是近。
目标定位：比如“我要拿这个杯子”，模型能不能找到目标位置。
规划推理：比如先做哪一步、后做哪一步。
相机预测：比如相机视角和参数。
第一视角理解：比如手、夹爪、可触达物体在哪里。
时序理解：比如视频里动作发生的顺序。
动作预测：把机器人动作当成 token，让模型预测下一步动作。

第二，改造 VLM 时改多狠？

作者比较了两种常见方式：

Full Finetune：全量微调，把整个模型参数都更新。
LoRA：只训练很小一部分适配参数，尽量保留原模型。

第三，要不要加入机器人数据预训练？

除了用 VQA 数据补能力，作者还测试了用 AgiBot-World-Beta 这类机器人轨迹数据继续预训练，看它能不能带来更好的 VLA 初始化。

为了让结论更可靠，实验覆盖了不同底座模型、不同动作头（MLP Head和Diffusion Expert），和不同任务平台，包括 Libero-10、SimplerBridge 和 RoboCasa GR1 Tabletop。

发现一：从零开始训，性能直接掉一大截

最基础的问题是：预训练 VLM 到底有没有用？

答案很明确：非常有用。

如果不用预训练 VLM，而是从零开始训练，三个平台上的成功率都会明显下降。

比如在 MLP action head 设置下：

Libero-10：从 92.4 掉到 66.6。
SimplerBridge：从 45.8 掉到 19.4。
RoboCasa：从 49.5 掉到 20.3。

这说明 VLM 原本学到的视觉和语言表征，并不是一个可有可无的起点。它里面确实保留了对机器人动作学习有帮助的通用信息。

换句话说，VLM 不只是“拿来凑一个 backbone”。它原来的知识，是 VLA 能学好的重要基础。

发现二：补课有用，但不能乱补

一个很自然的想法是：既然 VLM 要变成机器人模型，那就多给它补一些具身能力，比如空间理解、目标定位、规划推理。

但实验结果并不支持“补得越多越好”。

结果可以分成两层看。

第一层：同一种能力，在不同任务上效果不一样。

在 Libero-10 上，大多数能力注入都有帮助。比如 Temporal 在 MLP head 下能从 92.4 提到 96.4，Grounding 也能提到 95.6。

但到了 SimplerBridge，很多能力反而带来下降。也就是说，某种能力有没有用，要看下游任务真正卡在哪里。

第二层：不同能力之间不是简单相加。

论文发现，Grounding 和 Egocentric Understanding 是比较稳定的两类能力。前者帮助模型找准目标，后者帮助模型理解第一视角里的手、夹爪和可操作物体。

这两类能力组合起来时，效果最好。在 RoboCasa 的 Diffusion Expert 设置下，Grounding + Ego 能达到 53.5，比单独 Grounding 的 52.7 和单独 Ego 的 52.0 都更高。

但如果把更多能力继续堆进去，效果反而会下降。7-domain mix 并没有带来最强结果。

这里的启发很清楚：

给 VLM 补具身能力，要像看病开药一样，对症下药。不是药越多越好，关键是补到任务真正需要的地方。

发现三：LoRA 比全量微调更适合做初始化

这篇论文最重要的结论之一，是关于“怎么改 VLM”。

很多人会直觉上认为，全量微调更彻底，应该效果更好。毕竟所有参数都能更新，模型更有能力适应新任务。

但实验结果相反：

LoRA 几乎全程比 Full Finetune 更稳、更好。

在 Libero-10 和 RoboCasa 上，不管是单独注入 Grounding、Ego、Action-NTP，还是组合 Grounding + Ego，LoRA 的结果基本都高于 Full Finetune。

更关键的是，Full Finetune 经常会低于原始 baseline。也就是说，模型虽然经过了“专业训练”，但最终反而不如不改。

为什么会这样？

论文给出的解释是：全量微调太容易造成表征漂移，把 VLM 原本有用的通用能力覆盖掉。

附录里还有一个很直观的证据：Full Finetune 在具身 VQA 上的分数更高，说明它确实更会做这些“专业题”。但它的通用多模态能力平均掉了约 18%，最后 VLA 表现也更差。

这就像一个人参加了很密集的专项训练，专业测试成绩变高了，但原本的通识能力被冲掉了。真正干活时，反而没有之前稳。

LoRA 的价值就在这里：它不是完全重写模型，而是轻量地加一层适配，让模型学到新能力，同时尽量保留原来的底子。

发现四：底座越强，越值得“轻轻改”

LoRA 的优势还和 VLM 底座本身有关。

作者比较了 Qwen3-VL-4B、Qwen3-VL-2B 和 PaliGemma2-3B。

结果显示，底座越强，LoRA 带来的收益越明显。

在 Libero-10 上：

Qwen3-VL-4B 的 LoRA 平均提升是 +3.03。
Qwen3-VL-2B 的提升降到 +1.43。
PaliGemma2-3B 上则变成 -0.37。

RoboCasa 也呈现类似趋势。

这说明 LoRA 好用，并不是因为它本身神奇，而是因为它能保护一个本来就有价值的底座。底座越强，越值得保留；底座本身能力有限时，保留带来的收益也会变小。

所以这篇论文并不是简单说“永远用 LoRA”。更准确的说法是：

当你有一个足够强的 VLM 底座时，VLA 初始化更应该避免过度改写它。

发现五：机器人数据有用，但最好分阶段加入

最后，作者进一步问：如果直接用机器人轨迹数据来预训练，会不会更好？

答案是：会更好，但训练方式很重要。

在 RoboCasa 上，基础模型是 49.5。如果用 AgiBot 机器人数据做预训练：

Full Finetune 可以到 52.0。
LoRA 可以到 54.0。

这说明机器人数据确实能提供动作侧的信号，而且 LoRA 仍然更占优。

最强结果来自一个分阶段方案：

先用 Grounding + Egocentric Understanding 对 VLM 做 LoRA 适配。
再继续用机器人轨迹数据做 LoRA 预训练。

最终 RoboCasa 成功率达到 55.2，是论文中最好的结果。

为什么分阶段更好？

因为 VQA 信号和机器人轨迹信号并不完全一样。一个偏理解，一个偏动作。如果把它们同时塞进同一个适配模块，可能会互相竞争。分阶段训练，可以先补理解能力，再补动作经验，让两类信号各自发挥作用。

这篇论文真正想提醒什么？

过去做 VLA，大家很容易把注意力放在更大的模型、更多的数据、更复杂的动作头上。

这篇论文提醒了一个更基础的问题：

VLA 的起点很重要。

不是所有 VLM 改造都会让机器人更强。尤其是当我们已经有一个强 VLM 时，过度微调可能会把原本有用的视觉语言表征破坏掉。

所以，VLM 到 VLA 的适配不应该只问“能不能训得更专”，还要问：

新注入的能力，真的和下游动作任务相关吗？
这些能力之间是互补，还是会互相干扰？
更新方式会不会让模型忘掉原本有用的东西？
机器人数据应该和 VQA 数据一起训，还是分阶段训？

这也是本文标题里 “Rethinking” 的意思：重新思考 VLM 表征在 VLA 初始化里的作用。

给 VLA 研究者的实用建议

如果你正在做 VLA 或具身智能模型，这篇论文可以直接整理成一份初始化避坑指南：

第一，不要轻易从零开始。

预训练 VLM 的通用视觉语言能力，对动作学习非常重要。

第二，补能力要精准。

Grounding 和 Egocentric Understanding 是论文中发现的相对稳定的组合，但更多能力一起堆，并不一定更好。

第三，优先考虑 LoRA。

全量微调可能让模型在辅助任务上更强，但未必让最终机器人策略更强。

第四，选强底座更关键。

LoRA 的收益来自“保住好底子”。底座越强，这个策略越有价值。

第五，机器人数据最好分阶段注入。

先补具身理解，再用机器人轨迹继续适配，比把所有数据混在一起更稳。

小结

这篇论文的核心贡献，不是提出一个新的 VLA 大模型，而是把一个过去经常靠经验处理的问题进行深入探究：

VLM 到 VLA 的初始化，本质上是一个“注入新能力”和“保留旧能力”之间的平衡问题。

补得太少，机器人学不到足够的具身信号；改得太狠，又会破坏 VLM 原本有价值的表征。

真正有效的做法，是找到和动作学习相关的能力，用低破坏性的方式注入进去，再用机器人数据进一步校准。

这对后续 VLA 研究很有参考价值。因为随着 VLM 越来越强，如何“不把好底子改坏”，可能会和“怎么继续变大、继续加数据”一样重要。

END