NeurIPS 2025 | 人类认知对齐的CogVLA,突破VLA效率与性能瓶颈

具身智能之心 2025-09-19 13:42

点击下方卡片,关注“具身智能之心”公众号


作者丨Wei Li等

编辑丨具身智能之心

本文只做学术分享,如有侵权,联系删文



>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

本篇论文的工作已被 NeurIPS(Conference on Neural Information Processing Systems)2025 接收。

  • 论文题目:CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification
  • 论文链接:https://arxiv.org/abs/2508.21046
  • 项目主页:https://jiutian-vl.github.io/CogVLA-page/
  • 代码仓库:https://github.com/JiuTian-VL/CogVLA

指令:打开抽屉,将玩具放入抽屉,然后将其关上。

指令:打开抽屉,将玩具放入抽屉,然后将其关上。

指令:把T恤折叠起来。

背景:从大模型到具身智能,面临效率困境与语义退化

视觉-语言-动作(VLA)研究在强大的预训练 VLM 所提供的丰富视觉与语言表征推动下,正快速发展。然而,将 VLM 输出的高维多模态特征对齐至连续动作空间仍然计算开销巨大,限制了其大规模部署和实际应用。同时,现有的 VLA 加速方法往往忽视了跨越感知、语言对齐与动作解码的语义耦合,造成严重的跨模态语义退化。

核心挑战:冗余感知与跨模态语义脱节

现有效率优化策略(如层跳过、早期退出)主要聚焦于 VLA 所使用的大语言模型内部的计算优化,忽视了视觉、语言与动作之间的语义耦合。这导致三个问题:

  1. 感知冗余:压缩后的视觉信息容易丢失关键细节。
  2. 指令-语义脱节:跳过不当的 token 会破坏上下文一致性。
  3. 动作不连贯:缺乏跨模态因果推理,生成动作不够稳定。

需要针对 VLA 进行专门适配化设计,才能实现在提升效率的同时保持高性能。

我们的方案:CogVLA——认知对齐的三阶段设计

CogVLA 框架概览如下图所示:

  1. 传统 VLA 模型在处理初始观测(图 (a))时缺乏视觉压缩,导致计算开销过高。
  2. 如图 (b) 与图 (d) 所示,现有压缩方法往往保留无关输入(灰点),未能聚焦于与指令相关的目标(紫点),而CogVLA 通过 EFA-Routing 与 LFP-Routing 基于指令相关性对视觉输入进行稀疏化。
  3. 对比图 (c) 与图 (e),CAtten 进一步增强了逻辑一致性与动作连贯性,从而更好地完成目标任务。
  4. 图 (f)、图 (g) 和图 (h) 展示了 CogVLA 的架构创新及其在效率与性能上的优越性。
资讯配图

具体来说,CogVLA 借鉴认知科学中的人类多模态协调机制,提出 认知对齐的三阶段稀疏化框架

  1. EFA-Routing:指令驱动的视觉聚合,压缩冗余信息,仅保留与任务相关的视觉特征。
  2. LFP-Routing:在语言模型中进行语义感知剪枝,过滤掉与动作无关的视觉 token。
  3. CAtten:跨模态耦合注意力,保证语义一致性和动作序列的连贯性,同时支持并行解码。
资讯配图

三阶段渐进式设计示意图。CogVLA 通过指令驱动的路由与稀疏化模拟人类的多模态协同机制。EFA-Routing(阶段 1)、LFP-Routing(阶段 2)以及 CAtten(阶段 3)分别对应视觉注意系统(VAS)、辅助运动区(SMA)与前运动皮层(PMC)。图 (c) 突出了 CAtten 相较于以往注意力机制的优势,包括结合单向与双向注意力、注入动作意图、支持并行解码以及充分利用稀疏视觉 token。

资讯配图

实验结果:性能与效率均领先 OpenVLA-OFT、π0等先进模型

1.CogVLA在仿真评测与真实环境实验中均取得SOTA性能

  • CogVLA在LIBERO上取得了平均97.4%的最高成功率,同时实现了的视觉压缩倍率
  • CogVLA在一系列真实环境任务中取得最优的子任务成功率和综合成功率,凸显了其与人类对齐的感知规划能力
资讯配图

2.CogVLA极大缓解了当前VLA普遍存在的低效难题

  • 与OpenVLA相比,CogVLA的推理时间快2.79倍,吞吐量高22.54倍,FLOP低3.12倍,训练成本降低2.49倍
  • CogVLA在训练和推理效率方面也优于OpenVLA OFT和PD-VLA等最先进的高效VLA模型,进一步实现了20Hz的吞吐量提升,以及节省70%的训练时间
资讯配图

可视化分析:精准聚焦与稳定执行的优势

论文通过可视化视觉聚合Token生成的注意力图,进一步凸显了CogVLA的人类感知对齐能力。

如图所示,注意力权重突出显示了输入图像中与任务相关的区域,表明CogVLA的指令感知路由机制有效地引导感知模块关注语义上有意义的区域,即使在混乱或模糊的场景中也能实现强大的视觉基础。

资讯配图

资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IP
more
【行情】iPhone17系列维修费用出炉 你会买Care服务吗?
港版iPhone17ProMax溢价更猛,这价格真的疯了!
上海EDA/IP创新中心入驻仪式暨第六期EDA/IP沙龙圆满举行共话“破界·融合·赋能”,推动国产EDA/IP生态体系高质量发展
iPhone17ProMax深度体验,确实比iPhone16ProMax更炸裂
DJI Mini 5 Pro 体验:无人机里的 iPhone 17
【苹果】iPhone17系列今日开售 Pro版本线下展示机已满身划痕?
iPhone17 系列大拆解,欣赏下苹果顶级的硬件设计!
苹果iPhone 17 Pro发售首日被黄牛拒收,橙色Pro Max最高加价1500元
曝iPhone17/Air拍照偶发黑块,苹果称将修复/华为罕见公布AI芯片路线图/英伟达豪掷 50亿美元入股英特尔
iPhone 17开售首日:黄牛狂抢Pro Max,新机半天满是划痕,结论:还是不愁卖…
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号