在机器人操控领域,视觉-语言-动作模型(VLAs)一直被视为实现通用化操作的关键技术。当前主流方案要么给基础视觉-语言模型(VLM)添加特殊动作token,要么额外设计动作生成头,甚至修改模型架构 ——这些复杂操作不仅增加研发成本,还可能破坏 VLM 原本的语言理解能力。
而 NVIDIA 团队提出的VLA-0,用一种看似 “反常识” 的简单思路打破了僵局:不修改 VLM 的任何结构,直接让它以文本形式预测动作。实验证明,这种 “零改动” 设计不仅有效,还能在模拟和真实场景中超越众多复杂架构的 VLAs,为机器人操控模型的轻量化研发提供了全新方向。
论文标题:VLA-0: Building State-of-the-Art VLAs with Zero Modification
文章链接:https://arxiv.org/pdf/2510.13054v1.pdf
项目主页:https://vla0.github.io/
为什么要重新思考 VLA 的构建方式?
当前 VLAs 的研发陷入了 “越复杂越好用” 的误区,主流方案虽能实现动作预测,但都存在明显短板,核心问题可归结为 “为了加动作功能,牺牲了 VLM 的原有优势”:

这些方案都忽略了一个关键:VLM 本身已具备强大的文本生成能力,能否直接用文本表示动作?比如将机械臂的 “关节角度”“末端坐标” 转化为数字字符串,让 VLM 像生成文本一样输出动作?VLA-0 正是基于这个思路,用 “零修改” 实现了性能突破。
VLA-0:如何用 “零改动” 实现顶尖性能?
VLA-0 的核心设计可概括为 “不碰 VLM 架构,只优化输入输出与训练逻辑”。它完全保留基础 VLM 的结构,仅通过 “动作文本化表示 + 精细训练策略”,就让 VLM 具备动作预测能力,具体分为三个关键环节:

输入设计:让 VLM “看懂任务”
VLA-0 的输入完全复用 VLM 的原生格式,无需额外适配,包含三部分:
系统提示(System Prompt):明确任务目标,例如 “分析输入图像,预测未来 H 步机器人动作,每个动作含 D 个维度,仅输出 H×D 个整数(范围 0-B),用空格分隔,不包含其他内容”——通过固定格式约束 VLM 的输出逻辑,避免生成无关文本。
多模态观测:支持单图、多图或拼接图输入。模拟场景中使用 “第三人称视角 + 手腕相机视角”,真实场景中使用 “左右双目相机视角”,且实验证明 “多图单独输入” 与 “拼接成单图输入” 性能差异极小(仅 0.2%),适配性极强。
任务指令:自然语言描述操控目标,例如 “把纸杯蛋糕放进碗里”“将香蕉放在盘子上”,直接复用 VLM 的语言理解能力,无需额外编码。
动作解码:让 VLM “输出可用动作”
VLA-0 的核心创新在于将连续动作转化为 VLM 可生成的文本,具体步骤如下:
动作归一化:将机器人的连续动作值(如关节角度、末端位移)映射到固定整数范围(如 0-1000),既保留动作精度,又避免浮点数生成的不确定性。
文本化输出:VLM 直接生成空格分隔的整数字符串(例如 “4 12 98 3 0 0...”),每个整数对应一个动作维度,字符串长度为 “步数 × 维度数”(如 H=5 步、D=3 维,则输出 15 个整数)。
反向解析:将生成的整数字符串还原为连续动作值,直接发送给机器人执行。
这种设计的优势在于:动作分辨率可任意调整(只需修改整数范围 B),且完全不占用 VLM 的词汇表—— 相比离散token型 VLA,既避免了词汇冲突,又能实现精细动作控制。
训练与推理策略:让性能 “再上一个台阶”
VLA-0 的性能突破不仅依赖 “动作文本化”,更得益于两个针对性优化策略:
训练端:掩码动作增强(Masked Action Augmentation)
VLM 默认采用 “自回归生成”(后一个 token 依赖前一个 token),若直接训练生成动作文本,VLM 可能 “偷懒”—— 仅通过前一个数字推测下一个数字,而非结合图像和任务逻辑。
为解决此问题,VLA-0 在训练时随机掩码动作文本中的部分字符,迫使 VLM 必须基于 “图像观测 + 任务指令” 推理动作,而非依赖文本序列的连续性。实验证明,该策略能提升 1.2% 的平均成功率。
推理端:集成预测(Ensemble Prediction)
为降低动作预测的随机性,VLA-0 借鉴 ACT 模型的 “多步预测集成” 思路:
每次推理时,VLM 会预测未来 n 步的动作序列(例如 n=5)。
对于当前第 t 步动作,综合 “t 步预测的第 1 个动作”“t-1 步预测的第 2 个动作”...“t-n+1 步预测的第 n 个动作”,取平均值作为最终执行动作。
该策略能显著提升动作稳定性,实验显示可提升 2% 的平均成功率,是 VLA-0 在真实场景中稳定运行的关键。
此外,VLA-0 的训练配置极为简洁:基于 30 亿参数的 Qwen-VL-2.5(轻量级 VLM,兼顾性能与效率),使用 Adam 优化器,批量大小 192,学习率 5e-6,训练 64 个 epoch,在 8 张 A100 上仅需 32 小时——相比动辄需要上百张 GPU 的大模型训练,成本大幅降低。
实验结果:“零改动” 如何超越复杂模型?
VLA-0 在 “模拟 + 真实” 双场景下的实验结果,彻底颠覆了 “复杂架构更优” 的认知,核心结论可概括为 “不依赖大规模预训练,照样赢过专业模型”。
模拟场景:LIBERO 基准测试
LIBERO 是 VLAs 的主流评估基准,包含 4 个任务套件(Spatial 空间控制、Object 物体操作、Goal 目标导向、Long 长序列任务),覆盖机器人操控的核心能力。实验对比了 “无大规模动作预训练” 和 “有大规模动作预训练” 两类模型,结果如下:

真实场景:SO-100 机器人测试
在真实硬件(SO-100 机器人)上,VLA-0 测试了 4 个典型操控任务(块体重定向、苹果推动、香蕉拾取放置、纸杯蛋糕拾取放置),并与 “基于大规模 SO-100 数据预训练” 的 SmolVLA 对比:

平均成功率:VLA-0 以 60% 超越 SmolVLA 的 47.5%,差距达 12.5 个百分点。
效率:在单张 5090 GPU 上实现 4Hz 推理速度,且未使用集成预测(若启用集成,可进一步提升稳定性,需 8 个模型实例并行)。
这一结果证明:VLA-0 的性能不仅限于模拟环境,在真实物理场景中同样具备竞争力,且无需依赖昂贵的大规模机器人数据预训练。
关键结论与未来方向
VLA-0 的实验结果颠覆了 VLAs 的研发思路,其核心价值在于证明 “简单设计也能实现顶尖性能”,为机器人操控模型的工程化落地提供了三个关键启示:
核心结论
“零改动” 可行:无需修改 VLM 架构、词汇表或添加动作头,仅通过 “动作文本化 + 精细训练策略”,就能让 VLM 具备强大的动作预测能力,避免了复杂改动对 VLM 原有能力的破坏。
数据效率更高:不依赖大规模机器人动作预训练,仅用任务专属的少量演示数据(如每个真实任务 100 条演示),就能超越预训练模型,大幅降低数据采集成本。
平衡性能与效率:基于轻量级 VLM(Qwen-VL-2.5-3B),训练成本低、推理速度快,兼顾性能与部署可行性,更适合实际机器人系统。
未来方向
大规模预训练探索:当前 VLA-0 未使用大规模动作数据预训练,若结合预训练,可能进一步提升泛化性(如适应更多物体类型或场景)。
推理速度优化:当前 4Hz 推理速度虽能满足基础操控,但可通过模型蒸馏、量化等技术进一步提速,适配高动态场景(如快速抓取)。
3D 感知融合:现有 VLA-0 依赖 2D 图像输入,未来可结合 3D 场景信息(如点云、深度图),提升复杂环境下的操控精度(如遮挡场景中的物体抓取)。
总结
VLA-0 的出现,为 VLAs 的研发提供了 “去复杂化” 的新路径。它证明:机器人操控模型的核心竞争力,不在于架构多复杂、预训练数据多庞大,而在于是否能充分利用现有 VLM 的能力,用最简单的设计解决实际问题。对于资源有限的团队或追求快速落地的场景,VLA-0 的 “零改动” 思路无疑是极具参考价值的最优解——未来,或许会有更多 VLAs 回归 “简单高效” 的设计本质,推动机器人通用操控技术更快落地。
