英伟达最新 | 0成本搭建你的SOTA模型!轻量化VLA时代来啦~

具身智能之心 2025-10-28 12:00




在机器人操控领域,视觉-语言-动作模型(VLAs)一直被视为实现通用化操作的关键技术。当前主流方案要么给基础视觉-语言模型(VLM)添加特殊动作token,要么额外设计动作生成头,甚至修改模型架构 ——这些复杂操作不仅增加研发成本,还可能破坏 VLM 原本的语言理解能力。

而 NVIDIA 团队提出的VLA-0,用一种看似 “反常识” 的简单思路打破了僵局:不修改 VLM 的任何结构,直接让它以文本形式预测动作。实验证明,这种 “零改动” 设计不仅有效,还能在模拟和真实场景中超越众多复杂架构的 VLAs,为机器人操控模型的轻量化研发提供了全新方向。

论文标题:VLA-0: Building State-of-the-Art VLAs with Zero Modification

文章链接:https://arxiv.org/pdf/2510.13054v1.pdf

项目主页:https://vla0.github.io/

为什么要重新思考 VLA 的构建方式?

当前 VLAs 的研发陷入了 “越复杂越好用” 的误区,主流方案虽能实现动作预测,但都存在明显短板,核心问题可归结为 “为了加动作功能,牺牲了 VLM 的原有优势”:

英伟达最新 | 0成本搭建你的SOTA模型!轻量化VLA时代来啦~图1
VLA 类型
代表模型
核心思路
关键缺陷
生成式动作头型
、SmolVLA
在 VLM 顶部加独立动作生成头(如扩散模型),VLM 输出 latent 向量后解码为动作
1. 新增网络需额外微调,增加复杂度;2. 易导致 VLM 的语言接地能力下降,泛化性变差
离散token型
RT-2、OpenVLA
将连续动作离散成 “动作token”,嵌入 VLM 词汇表
1. 动作分辨率受词汇量限制(精细控制需上千个token,与文本词汇冲突);2. 复用词汇会破坏 VLM 的预训练语义理解
自定义架构型
OpenVLA-OFT、-FAST
设计专属动作分词器(如离散余弦变换)或特殊动作头
1. 架构改动大,需定制训练流程;2. 额外参数增加部署成本,不利于工程落地

这些方案都忽略了一个关键:VLM 本身已具备强大的文本生成能力,能否直接用文本表示动作?比如将机械臂的 “关节角度”“末端坐标” 转化为数字字符串,让 VLM 像生成文本一样输出动作?VLA-0 正是基于这个思路,用 “零修改” 实现了性能突破。

VLA-0:如何用 “零改动” 实现顶尖性能?

VLA-0 的核心设计可概括为 “不碰 VLM 架构,只优化输入输出与训练逻辑”。它完全保留基础 VLM 的结构,仅通过 “动作文本化表示 + 精细训练策略”,就让 VLM 具备动作预测能力,具体分为三个关键环节:

英伟达最新 | 0成本搭建你的SOTA模型!轻量化VLA时代来啦~图2

输入设计:让 VLM “看懂任务”

VLA-0 的输入完全复用 VLM 的原生格式,无需额外适配,包含三部分:

系统提示(System Prompt):明确任务目标,例如 “分析输入图像,预测未来 H 步机器人动作,每个动作含 D 个维度,仅输出 H×D 个整数(范围 0-B),用空格分隔,不包含其他内容”——通过固定格式约束 VLM 的输出逻辑,避免生成无关文本。

多模态观测:支持单图、多图或拼接图输入。模拟场景中使用 “第三人称视角 + 手腕相机视角”,真实场景中使用 “左右双目相机视角”,且实验证明 “多图单独输入” 与 “拼接成单图输入” 性能差异极小(仅 0.2%),适配性极强。

任务指令:自然语言描述操控目标,例如 “把纸杯蛋糕放进碗里”“将香蕉放在盘子上”,直接复用 VLM 的语言理解能力,无需额外编码。

动作解码:让 VLM “输出可用动作”

VLA-0 的核心创新在于将连续动作转化为 VLM 可生成的文本,具体步骤如下:

动作归一化:将机器人的连续动作值(如关节角度、末端位移)映射到固定整数范围(如 0-1000),既保留动作精度,又避免浮点数生成的不确定性。

文本化输出:VLM 直接生成空格分隔的整数字符串(例如 “4 12 98 3 0 0...”),每个整数对应一个动作维度,字符串长度为 “步数 × 维度数”(如 H=5 步、D=3 维,则输出 15 个整数)。

反向解析:将生成的整数字符串还原为连续动作值,直接发送给机器人执行。

这种设计的优势在于:动作分辨率可任意调整(只需修改整数范围 B),且完全不占用 VLM 的词汇表—— 相比离散token型 VLA,既避免了词汇冲突,又能实现精细动作控制。

训练与推理策略:让性能 “再上一个台阶”

VLA-0 的性能突破不仅依赖 “动作文本化”,更得益于两个针对性优化策略:

训练端:掩码动作增强(Masked Action Augmentation)

VLM 默认采用 “自回归生成”(后一个 token 依赖前一个 token),若直接训练生成动作文本,VLM 可能 “偷懒”—— 仅通过前一个数字推测下一个数字,而非结合图像和任务逻辑。

为解决此问题,VLA-0 在训练时随机掩码动作文本中的部分字符,迫使 VLM 必须基于 “图像观测 + 任务指令” 推理动作,而非依赖文本序列的连续性。实验证明,该策略能提升 1.2% 的平均成功率。

推理端:集成预测(Ensemble Prediction)

为降低动作预测的随机性,VLA-0 借鉴 ACT 模型的 “多步预测集成” 思路:

每次推理时,VLM 会预测未来 n 步的动作序列(例如 n=5)。

对于当前第 t 步动作,综合 “t 步预测的第 1 个动作”“t-1 步预测的第 2 个动作”...“t-n+1 步预测的第 n 个动作”,取平均值作为最终执行动作。

该策略能显著提升动作稳定性,实验显示可提升 2% 的平均成功率,是 VLA-0 在真实场景中稳定运行的关键。

此外,VLA-0 的训练配置极为简洁:基于 30 亿参数的 Qwen-VL-2.5(轻量级 VLM,兼顾性能与效率),使用 Adam 优化器,批量大小 192,学习率 5e-6,训练 64 个 epoch,在 8 张 A100 上仅需 32 小时——相比动辄需要上百张 GPU 的大模型训练,成本大幅降低。

实验结果:“零改动” 如何超越复杂模型?

VLA-0 在 “模拟 + 真实” 双场景下的实验结果,彻底颠覆了 “复杂架构更优” 的认知,核心结论可概括为 “不依赖大规模预训练,照样赢过专业模型”。

模拟场景:LIBERO 基准测试

LIBERO 是 VLAs 的主流评估基准,包含 4 个任务套件(Spatial 空间控制、Object 物体操作、Goal 目标导向、Long 长序列任务),覆盖机器人操控的核心能力。实验对比了 “无大规模动作预训练” 和 “有大规模动作预训练” 两类模型,结果如下:

英伟达最新 | 0成本搭建你的SOTA模型!轻量化VLA时代来啦~图3
对比维度
具体表现
无预训练模型中
VLA-0 以平均 94.7% 的成功率排名第一,超越所有同类型模型:比第二名 -KI(93.3%)高 1.4%,比 SmolVLA(2.25B,88.8%)高 5.9%,且在 Spatial(97.0%)、Object(97.8%)、Goal(96.2%)三个套件中均为最高。
与有预训练模型比
尽管 VLA-0 无任何大规模动作预训练,仍超越多个知名预训练模型:如 (94.2%)、GR00T-N1(93.9%)、MolmoAct(86.8%),仅略低于定制化预训练模型 OpenVLA-OFT(97.1%),平均排名 2.8。

真实场景:SO-100 机器人测试

在真实硬件(SO-100 机器人)上,VLA-0 测试了 4 个典型操控任务(块体重定向、苹果推动、香蕉拾取放置、纸杯蛋糕拾取放置),并与 “基于大规模 SO-100 数据预训练” 的 SmolVLA 对比:

英伟达最新 | 0成本搭建你的SOTA模型!轻量化VLA时代来啦~图4

平均成功率:VLA-0 以 60% 超越 SmolVLA 的 47.5%,差距达 12.5 个百分点。

效率:在单张 5090 GPU 上实现 4Hz 推理速度,且未使用集成预测(若启用集成,可进一步提升稳定性,需 8 个模型实例并行)。

这一结果证明:VLA-0 的性能不仅限于模拟环境,在真实物理场景中同样具备竞争力,且无需依赖昂贵的大规模机器人数据预训练。

关键结论与未来方向

VLA-0 的实验结果颠覆了 VLAs 的研发思路,其核心价值在于证明 “简单设计也能实现顶尖性能”,为机器人操控模型的工程化落地提供了三个关键启示:

核心结论

“零改动” 可行:无需修改 VLM 架构、词汇表或添加动作头,仅通过 “动作文本化 + 精细训练策略”,就能让 VLM 具备强大的动作预测能力,避免了复杂改动对 VLM 原有能力的破坏。

数据效率更高:不依赖大规模机器人动作预训练,仅用任务专属的少量演示数据(如每个真实任务 100 条演示),就能超越预训练模型,大幅降低数据采集成本。

平衡性能与效率:基于轻量级 VLM(Qwen-VL-2.5-3B),训练成本低、推理速度快,兼顾性能与部署可行性,更适合实际机器人系统。

未来方向

大规模预训练探索:当前 VLA-0 未使用大规模动作数据预训练,若结合预训练,可能进一步提升泛化性(如适应更多物体类型或场景)。

推理速度优化:当前 4Hz 推理速度虽能满足基础操控,但可通过模型蒸馏、量化等技术进一步提速,适配高动态场景(如快速抓取)。

3D 感知融合:现有 VLA-0 依赖 2D 图像输入,未来可结合 3D 场景信息(如点云、深度图),提升复杂环境下的操控精度(如遮挡场景中的物体抓取)。

总结

VLA-0 的出现,为 VLAs 的研发提供了 “去复杂化” 的新路径。它证明:机器人操控模型的核心竞争力,不在于架构多复杂、预训练数据多庞大,而在于是否能充分利用现有 VLM 的能力,用最简单的设计解决实际问题。对于资源有限的团队或追求快速落地的场景,VLA-0 的 “零改动” 思路无疑是极具参考价值的最优解——未来,或许会有更多 VLAs 回归 “简单高效” 的设计本质,推动机器人通用操控技术更快落地。

英伟达最新 | 0成本搭建你的SOTA模型!轻量化VLA时代来啦~图5

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
英伟达
more
全网首拆,价值3万的英伟达Jetson AGX Thor Developer Kit拆解!
8GB 型号有价无市:消息称英伟达已针对 RTX 5060 Ti 显卡供货数量及价格进行管控
昨夜今晨全球大公司动态 | 亚马逊计划裁员多达3万人;高通将推出AI芯片与英伟达竞争
芯报丨英伟达据称将与德国电信合建数据中心
黄仁勋站台,台积电美工厂造出首片英伟达Blackwell晶圆
黄仁勋“撒钱”创纪录!英伟达超级AI帝国崛起,但没带中国玩
超越英伟达Describe Anything!中科院 & 字节联合提出「GAR」,为DeepSeek-OCR添砖加瓦
黄仁勋女儿揭秘,英伟达Physical AI战略的关键拼图,为何是他们?
英伟达失守中国区!推理需求爆发,国产GPU抢滩上市
国产GPU逆袭!中国英伟达IPO成功过会!
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号