0.9B跑出90%真机成功率!上海交大为VLA补上空间感

量子位 2026-05-26 11:38
上海交大MINT团队 投稿
量子位 | 公众号 QbitAI

机器人看得见,但不一定看得准。

大量VLA模型仍然主要依赖二维视觉,一旦遇到精定位、细摆放、遮挡判断这类需要空间感知的任务,成功率就会明显下滑。

补空间信息的路有两条,但都有代价。

显式3D路线靠深度传感器和点云重建,硬件链路长、对标定误差敏感;隐式3D路线从RGB学几何,省了硬件,但不少方案依赖较重的基础模型,训练和推理成本偏高。

现在,上海交大MINT团队提出了一条中间路线:

Evo-Depth,约0.9B参数,不额外增加硬件负担,用紧凑的隐式深度编码把空间感写进VLA策略里,仿真与真机同时兼顾性能与部署效率。

0.9B跑出90%真机成功率!上海交大为VLA补上空间感图1

仿真端,Meta-World 84.4%、LIBERO 95.4%;真机平均成功率约90%;部署侧约3.2 GB显存、约12.3 Hz推理频率。

代码、权重、训练脚本已全面开源。

轻量、可端到端训练

直入主题,Evo-Depth的核心思路是:

从多视角RGB提取紧凑的隐式深度表征,再以轻量方式融入视觉-语言通路,最后通过flow-matching动作专家输出连续动作。

0.9B跑出90%真机成功率!上海交大为VLA补上空间感图2

整个系统主要由三部分组成:

1、IDEM:Implicit Depth Encoding Module。

IDEM负责从多视角图像中提取隐式深度特征,强调空间布局与相对几何关系,而不是显式生成高成本的3D中间表示。

论文中,IDEM骨干约0.13B参数,并结合多视角深度预训练初始化,在轻量条件下引入与深度相关的归纳偏置。

2、SEM:Spatial Enhancement Module。

SEM将隐式深度作为一种调制信号,用于增强视觉-语言表征。

相比直接增加独立深度分支,这种融合方式更克制:

3、Progressive Alignment Training。

多模块联合训练通常容易出现优化不稳定的问题。

为此,作者采用Progressive Alignment Training,通过分阶段训练方式逐步完成:深度表征对齐-多模态融合-动作学习。

动作头则采用了当前VLA中较常见的flow-matching路线。

在约0.9B总参数设置下,论文报告的结果如下。

值得注意的是,相比只关注benchmark分数,论文也给出了部署侧开销与实时性指标。

对于需要真正运行在机器人控制回路中的VLA来说,这部分信息往往同样重要。

性能-成本-实时性的折中

归根结底,Evo-Depth解决的问题其实就是一句话:

如何在不显著增加系统负担的情况下,提升VLA的空间能力。

结果是——相比纯二维VLA,它补充了空间信息;相比更重的3D路线,它又尽量保留了部署效率。

对于正在做机器人操作、空间智能或VLA系统的团队来说,这类性能-成本-实时性之间的折中方案,可能会越来越重要。

官方仓库:https://github.com/MINT-SJTU/Evo-Depth
模型权重:https://huggingface.co/MINT-SJTU/EVO-Depth-LIBERO

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
功率
more
2026年半导体行业趋势观察(Part 5)- NOR Flash、MEMS与传感器、功率器件三大领域洞察
功率半导体的风向变了:BDS五年内能否撬动十亿美元市场?
功率半导体,变天了
机器人版GPT-3来了:任务成功率99%,「涌现」过后能临场发挥
全球功率半导体产业整合加速:日本三巨头抱团重组,国内锴威特并购补强
功率放大器如何选型?如何确保功放的功率稳定输出?
特斯拉无安全员Robotaxi向公众开放,但叫车成功率极低
AI算力需求成核心驱动力!模拟芯片企业大功率电源收入增长210%
中国反击,AI顶会已死;日本功率半导体三强联手,目标全球第二;我国推出基于 RISC-V 的香山、如意操作系统
OpenClaw代码越改越崩?新研究EvoClaw揭示:Agents持续开发成功率仅13.37%
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号