腾讯&上海交大等高校联合发布视觉空间推理综述.

具身智能之心 2025-10-15 19:00




1.视觉空间推理任务的现状

Vision Language Models的空间推理能力在自动驾驶,具身应用中至关重要,近期也得到了社区的广泛关注。研究方向包括方法上的探索,如模型结构的改进,训练流程优化,推理策略;以及提出不同的任务设定来全面测评VLMs的空间推理任务。

相关工作快速迭代,急需对方法和任务设定进行梳理。另外,现有的benchmark往往关注空间推理任务的几个方面,并不能提供一个全面的评估结果。

2.文章信息:

2.1文章标题:

How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective

2.2文章链接:

https://arxiv.org/pdf/2509.18905

2.3项目链接:

https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/

2.4代码链接:

https://github.com/song2yu/SIBench-VSR

腾讯&上海交大等高校联合发布视觉空间推理综述.图1

2.5主要贡献:

  1. 对现有的改进方法进行了梳理,包括输入模态,模型结构,训练方法,推理策略;
  2. 对现有的任务设定按照推理层次分为基础感知,空间理解,任务规划三种类型的任务,详细梳理目前的任务设定;
  3. 对现有的开源benchmark进行整理,筛选,汇集成一个全面的测评工具SIBench,代码&数据已开源,并提供了一个leaderboard;
  4. 基于SIBench,对主流的VLMs进行了测评,并发现在四个方面能力严重不足;

3.方法介绍

目前对视觉空间推理能力的改进包括四个方面,包括对输入模态,模型结构,训练方式,推理策略。

腾讯&上海交大等高校联合发布视觉空间推理综述.图2

3.1输入模态

视觉空间推理任务的难点在于从投影压缩后的2D输入理解完整的3D空间,因此一个有效的方式是在输入端将深度信息作为辅助模态同时送给VLM,这里的设计可以令RGB和Depth 共享一个Encoder,或者为Depth采用单独的encoder。

3.2模型结构

与输入深度图的动机类似,有工作在现有VLMs的基础上,增加一个spatial encoder,用来提取空间信息,如提取depth,或者采用重建encoder如VGGT等,目的是从2D的RGB图像中尽可能提取3D representations。

3.3训练策略

强化学习的方式在很多VLMs的子任务(数学推理,代码生成)被证明有效,现有工作为视觉空间推理专门设计了奖励策略,被证明有效。

3.4推理方式

不同于通用的CoT提示策略,在视觉空间推理任务中,社区提出了一些独有的推理策略。其中被广泛证明有效的有认知图构建- cognitive map,调用其他API,采用RAG等等。

4.任务设定介绍

本文按照推理层次将任务分类为基础感知,空间理解,任务规划三个层次。

腾讯&上海交大等高校联合发布视觉空间推理综述.图3

其中基础感知是只涉及某一个或者某一类事物的属性,又进一步按照属性是否容易改变分为静态属性和状态;

空间理解涉及两个以上事物或者目标和环境之间的关系,进一步按照关系是否涉及视角/时序的变化,分为静态关系理解和动态关系理解;

规划是需要理解当前的空间限制,以及任务需求,给出满意的解决方案。

4.1基础感知- Basic Perception

腾讯&上海交大等高校联合发布视觉空间推理综述.图4

只涉及单个目标或者单类目标的属性,或者状态。任务有计数,目标形状,颜色,大小,状态,方向等等;

4.2空间理解- Spatial Understanding

腾讯&上海交大等高校联合发布视觉空间推理综述.图5

涉及多个目标或者目标和背景之间的关系,任务包括空间关系判断,定位,距离估计,兼容性估计,空间想象,速度/加速度,路线描述等等;

4.3Planning

腾讯&上海交大等高校联合发布视觉空间推理综述.图6

规划要求模型理解空间约束,以及任务需求,从而给出解决方案。

5.SIBench

为了提供一个全面且方便的测评工具,本工作收集了18个开源Benchmark,并且进行了数据的筛选,最终汇编成SIBench,涵盖3种层次,23个任务设定(每一种任务设定下也有一些自任务),三种输入形式(单图,多视角,视频),三种问题形式(选择,判断,数字问答)。

腾讯&上海交大等高校联合发布视觉空间推理综述.图7

以SIBenchz作为测评工具,对主流VLMs进行了测试。代码,数据,排行榜现全部开源。

腾讯&上海交大等高校联合发布视觉空间推理综述.图8

6.主要发现:

腾讯&上海交大等高校联合发布视觉空间推理综述.图9
  1. 基础感知能力仍然有限:作为空间推理的起始环节,基础感知会为后续的推理提供元信息,但是测评结果显示,各个VLMs的基础感知能力还有待提升,这些感知误差会沿着推理链路进行积累,从而导致最终的推理错误;

  2. 量化推理能力不足:相比较于定性的空间推理任务,如判断前后左右这样的相对位置,定量的估计表现差强人意,如计数,估计距离等;

  3. 动态信息的处理能力弱:在面对多视角或者视频输入的时候,模型的性能严重下降,对应的任务设定有估计速度,或者相机位姿等等;

  4. 空间想象能力的严重缺失:模型更容易回答从图中直接读取信息的问题,但是对于需要空间建模/想象的问题,表现严重落后;

腾讯&上海交大等高校联合发布视觉空间推理综述.图10

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
高校
more
【一周热点】百亿级项目迎新进展;安靠/日月光新厂开工;三所高校成立集成电路学院!
【低空经济】120所高校抢占低空经济风口,人才缺口达数十万!
【教育】毋娟|生成式人工智能赋能高校外语教育的现实困境与推进路径
【教育】“5G+AI”驱动高校思政教育模式升级
东风汽车研发总院高管调动:陈涛任副院长;小鹏汽车副总裁辟谣“重新上车激光雷达”传闻,坚持纯视觉;全国首个机器人被录取为高校博士
区势资讯 | 安森美借力高校合作加速碳化硅技术革新
案例分享|为什么 Perplexity AI 是我作为高校首席信息官的首选研究工具
EDA巨头因向中国高校出货,遭1.4亿美元重罚
海水“变”生物塑料!在蓉高校团队联合破解海水捕碳难题
WAIC现场的AI新云担当:九章智算云百元解锁普惠算力,向高校发放“算力平权”补给
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号