英伟达最新｜ 0成本搭建你的SOTA模型！轻量化VLA时代来啦～

在机器人操控领域，视觉-语言-动作模型（VLAs）一直被视为实现通用化操作的关键技术。当前主流方案要么给基础视觉-语言模型（VLM）添加特殊动作token，要么额外设计动作生成头，甚至修改模型架构 ——这些复杂操作不仅增加研发成本，还可能破坏 VLM 原本的语言理解能力。

而 NVIDIA 团队提出的VLA-0，用一种看似 “反常识” 的简单思路打破了僵局：不修改 VLM 的任何结构，直接让它以文本形式预测动作。实验证明，这种 “零改动” 设计不仅有效，还能在模拟和真实场景中超越众多复杂架构的 VLAs，为机器人操控模型的轻量化研发提供了全新方向。

论文标题：VLA-0: Building State-of-the-Art VLAs with Zero Modification

文章链接：https://arxiv.org/pdf/2510.13054v1.pdf

项目主页：https://vla0.github.io/

为什么要重新思考 VLA 的构建方式？

当前 VLAs 的研发陷入了 “越复杂越好用” 的误区，主流方案虽能实现动作预测，但都存在明显短板，核心问题可归结为 “为了加动作功能，牺牲了 VLM 的原有优势”：

VLA 类型	代表模型	核心思路	关键缺陷
生成式动作头型	、SmolVLA	在 VLM 顶部加独立动作生成头（如扩散模型），VLM 输出 latent 向量后解码为动作	1. 新增网络需额外微调，增加复杂度；2. 易导致 VLM 的语言接地能力下降，泛化性变差
离散token型	RT-2、OpenVLA	将连续动作离散成 “动作token”，嵌入 VLM 词汇表	1. 动作分辨率受词汇量限制（精细控制需上千个token，与文本词汇冲突）；2. 复用词汇会破坏 VLM 的预训练语义理解
自定义架构型	OpenVLA-OFT、-FAST	设计专属动作分词器（如离散余弦变换）或特殊动作头	1. 架构改动大，需定制训练流程；2. 额外参数增加部署成本，不利于工程落地

这些方案都忽略了一个关键：VLM 本身已具备强大的文本生成能力，能否直接用文本表示动作？比如将机械臂的 “关节角度”“末端坐标” 转化为数字字符串，让 VLM 像生成文本一样输出动作？VLA-0 正是基于这个思路，用 “零修改” 实现了性能突破。

VLA-0：如何用 “零改动” 实现顶尖性能？

VLA-0 的核心设计可概括为 “不碰 VLM 架构，只优化输入输出与训练逻辑”。它完全保留基础 VLM 的结构，仅通过 “动作文本化表示 + 精细训练策略”，就让 VLM 具备动作预测能力，具体分为三个关键环节：

输入设计：让 VLM “看懂任务”

VLA-0 的输入完全复用 VLM 的原生格式，无需额外适配，包含三部分：

系统提示（System Prompt）：明确任务目标，例如 “分析输入图像，预测未来 H 步机器人动作，每个动作含 D 个维度，仅输出 H×D 个整数（范围 0-B），用空格分隔，不包含其他内容”——通过固定格式约束 VLM 的输出逻辑，避免生成无关文本。

多模态观测：支持单图、多图或拼接图输入。模拟场景中使用 “第三人称视角 + 手腕相机视角”，真实场景中使用 “左右双目相机视角”，且实验证明 “多图单独输入” 与 “拼接成单图输入” 性能差异极小（仅 0.2%），适配性极强。

任务指令：自然语言描述操控目标，例如 “把纸杯蛋糕放进碗里”“将香蕉放在盘子上”，直接复用 VLM 的语言理解能力，无需额外编码。

动作解码：让 VLM “输出可用动作”

VLA-0 的核心创新在于将连续动作转化为 VLM 可生成的文本，具体步骤如下：

动作归一化：将机器人的连续动作值（如关节角度、末端位移）映射到固定整数范围（如 0-1000），既保留动作精度，又避免浮点数生成的不确定性。

文本化输出：VLM 直接生成空格分隔的整数字符串（例如 “4 12 98 3 0 0...”），每个整数对应一个动作维度，字符串长度为 “步数 × 维度数”（如 H=5 步、D=3 维，则输出 15 个整数）。

反向解析：将生成的整数字符串还原为连续动作值，直接发送给机器人执行。

这种设计的优势在于：动作分辨率可任意调整（只需修改整数范围 B），且完全不占用 VLM 的词汇表—— 相比离散token型 VLA，既避免了词汇冲突，又能实现精细动作控制。

训练与推理策略：让性能 “再上一个台阶”

VLA-0 的性能突破不仅依赖 “动作文本化”，更得益于两个针对性优化策略：

训练端：掩码动作增强（Masked Action Augmentation）

VLM 默认采用 “自回归生成”（后一个 token 依赖前一个 token），若直接训练生成动作文本，VLM 可能 “偷懒”—— 仅通过前一个数字推测下一个数字，而非结合图像和任务逻辑。

为解决此问题，VLA-0 在训练时随机掩码动作文本中的部分字符，迫使 VLM 必须基于 “图像观测 + 任务指令” 推理动作，而非依赖文本序列的连续性。实验证明，该策略能提升 1.2% 的平均成功率。

推理端：集成预测（Ensemble Prediction）

为降低动作预测的随机性，VLA-0 借鉴 ACT 模型的 “多步预测集成” 思路：

每次推理时，VLM 会预测未来 n 步的动作序列（例如 n=5）。

对于当前第 t 步动作，综合 “t 步预测的第 1 个动作”“t-1 步预测的第 2 个动作”...“t-n+1 步预测的第 n 个动作”，取平均值作为最终执行动作。

该策略能显著提升动作稳定性，实验显示可提升 2% 的平均成功率，是 VLA-0 在真实场景中稳定运行的关键。

此外，VLA-0 的训练配置极为简洁：基于 30 亿参数的 Qwen-VL-2.5（轻量级 VLM，兼顾性能与效率），使用 Adam 优化器，批量大小 192，学习率 5e-6，训练 64 个 epoch，在 8 张 A100 上仅需 32 小时——相比动辄需要上百张 GPU 的大模型训练，成本大幅降低。

实验结果：“零改动” 如何超越复杂模型？

VLA-0 在 “模拟 + 真实” 双场景下的实验结果，彻底颠覆了 “复杂架构更优” 的认知，核心结论可概括为 “不依赖大规模预训练，照样赢过专业模型”。

模拟场景：LIBERO 基准测试

LIBERO 是 VLAs 的主流评估基准，包含 4 个任务套件（Spatial 空间控制、Object 物体操作、Goal 目标导向、Long 长序列任务），覆盖机器人操控的核心能力。实验对比了 “无大规模动作预训练” 和 “有大规模动作预训练” 两类模型，结果如下：

对比维度	具体表现
无预训练模型中	VLA-0 以平均 94.7% 的成功率排名第一，超越所有同类型模型：比第二名 -KI（93.3%）高 1.4%，比 SmolVLA（2.25B，88.8%）高 5.9%，且在 Spatial（97.0%）、Object（97.8%）、Goal（96.2%）三个套件中均为最高。
与有预训练模型比	尽管 VLA-0 无任何大规模动作预训练，仍超越多个知名预训练模型：如（94.2%）、GR00T-N1（93.9%）、MolmoAct（86.8%），仅略低于定制化预训练模型 OpenVLA-OFT（97.1%），平均排名 2.8。

真实场景：SO-100 机器人测试

在真实硬件（SO-100 机器人）上，VLA-0 测试了 4 个典型操控任务（块体重定向、苹果推动、香蕉拾取放置、纸杯蛋糕拾取放置），并与 “基于大规模 SO-100 数据预训练” 的 SmolVLA 对比：

平均成功率：VLA-0 以 60% 超越 SmolVLA 的 47.5%，差距达 12.5 个百分点。

效率：在单张 5090 GPU 上实现 4Hz 推理速度，且未使用集成预测（若启用集成，可进一步提升稳定性，需 8 个模型实例并行）。

这一结果证明：VLA-0 的性能不仅限于模拟环境，在真实物理场景中同样具备竞争力，且无需依赖昂贵的大规模机器人数据预训练。

关键结论与未来方向

VLA-0 的实验结果颠覆了 VLAs 的研发思路，其核心价值在于证明 “简单设计也能实现顶尖性能”，为机器人操控模型的工程化落地提供了三个关键启示：

核心结论

“零改动” 可行：无需修改 VLM 架构、词汇表或添加动作头，仅通过 “动作文本化 + 精细训练策略”，就能让 VLM 具备强大的动作预测能力，避免了复杂改动对 VLM 原有能力的破坏。

数据效率更高：不依赖大规模机器人动作预训练，仅用任务专属的少量演示数据（如每个真实任务 100 条演示），就能超越预训练模型，大幅降低数据采集成本。

平衡性能与效率：基于轻量级 VLM（Qwen-VL-2.5-3B），训练成本低、推理速度快，兼顾性能与部署可行性，更适合实际机器人系统。

未来方向

大规模预训练探索：当前 VLA-0 未使用大规模动作数据预训练，若结合预训练，可能进一步提升泛化性（如适应更多物体类型或场景）。

推理速度优化：当前 4Hz 推理速度虽能满足基础操控，但可通过模型蒸馏、量化等技术进一步提速，适配高动态场景（如快速抓取）。

3D 感知融合：现有 VLA-0 依赖 2D 图像输入，未来可结合 3D 场景信息（如点云、深度图），提升复杂环境下的操控精度（如遮挡场景中的物体抓取）。

总结

VLA-0 的出现，为 VLAs 的研发提供了 “去复杂化” 的新路径。它证明：机器人操控模型的核心竞争力，不在于架构多复杂、预训练数据多庞大，而在于是否能充分利用现有 VLM 的能力，用最简单的设计解决实际问题。对于资源有限的团队或追求快速落地的场景，VLA-0 的 “零改动” 思路无疑是极具参考价值的最优解——未来，或许会有更多 VLAs 回归 “简单高效” 的设计本质，推动机器人通用操控技术更快落地。

英伟达最新｜ 0成本搭建你的SOTA模型！轻量化VLA时代来啦～图5