1.视觉空间推理任务的现状
Vision Language Models的空间推理能力在自动驾驶,具身应用中至关重要,近期也得到了社区的广泛关注。研究方向包括方法上的探索,如模型结构的改进,训练流程优化,推理策略;以及提出不同的任务设定来全面测评VLMs的空间推理任务。
相关工作快速迭代,急需对方法和任务设定进行梳理。另外,现有的benchmark往往关注空间推理任务的几个方面,并不能提供一个全面的评估结果。
2.文章信息:
2.1文章标题:
How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective
2.2文章链接:
https://arxiv.org/pdf/2509.18905
2.3项目链接:
https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/
2.4代码链接:
https://github.com/song2yu/SIBench-VSR

2.5主要贡献:
对现有的改进方法进行了梳理,包括输入模态,模型结构,训练方法,推理策略; 对现有的任务设定按照推理层次分为基础感知,空间理解,任务规划三种类型的任务,详细梳理目前的任务设定; 对现有的开源benchmark进行整理,筛选,汇集成一个全面的测评工具SIBench,代码&数据已开源,并提供了一个leaderboard; 基于SIBench,对主流的VLMs进行了测评,并发现在四个方面能力严重不足;
3.方法介绍
目前对视觉空间推理能力的改进包括四个方面,包括对输入模态,模型结构,训练方式,推理策略。

3.1输入模态
视觉空间推理任务的难点在于从投影压缩后的2D输入理解完整的3D空间,因此一个有效的方式是在输入端将深度信息作为辅助模态同时送给VLM,这里的设计可以令RGB和Depth 共享一个Encoder,或者为Depth采用单独的encoder。
3.2模型结构
与输入深度图的动机类似,有工作在现有VLMs的基础上,增加一个spatial encoder,用来提取空间信息,如提取depth,或者采用重建encoder如VGGT等,目的是从2D的RGB图像中尽可能提取3D representations。
3.3训练策略
强化学习的方式在很多VLMs的子任务(数学推理,代码生成)被证明有效,现有工作为视觉空间推理专门设计了奖励策略,被证明有效。
3.4推理方式
不同于通用的CoT提示策略,在视觉空间推理任务中,社区提出了一些独有的推理策略。其中被广泛证明有效的有认知图构建- cognitive map,调用其他API,采用RAG等等。
4.任务设定介绍
本文按照推理层次将任务分类为基础感知,空间理解,任务规划三个层次。

其中基础感知是只涉及某一个或者某一类事物的属性,又进一步按照属性是否容易改变分为静态属性和状态;
空间理解涉及两个以上事物或者目标和环境之间的关系,进一步按照关系是否涉及视角/时序的变化,分为静态关系理解和动态关系理解;
规划是需要理解当前的空间限制,以及任务需求,给出满意的解决方案。
4.1基础感知- Basic Perception

只涉及单个目标或者单类目标的属性,或者状态。任务有计数,目标形状,颜色,大小,状态,方向等等;
4.2空间理解- Spatial Understanding

涉及多个目标或者目标和背景之间的关系,任务包括空间关系判断,定位,距离估计,兼容性估计,空间想象,速度/加速度,路线描述等等;
4.3Planning

规划要求模型理解空间约束,以及任务需求,从而给出解决方案。
5.SIBench
为了提供一个全面且方便的测评工具,本工作收集了18个开源Benchmark,并且进行了数据的筛选,最终汇编成SIBench,涵盖3种层次,23个任务设定(每一种任务设定下也有一些自任务),三种输入形式(单图,多视角,视频),三种问题形式(选择,判断,数字问答)。

以SIBenchz作为测评工具,对主流VLMs进行了测试。代码,数据,排行榜现全部开源。

6.主要发现:

基础感知能力仍然有限:作为空间推理的起始环节,基础感知会为后续的推理提供元信息,但是测评结果显示,各个VLMs的基础感知能力还有待提升,这些感知误差会沿着推理链路进行积累,从而导致最终的推理错误;
量化推理能力不足:相比较于定性的空间推理任务,如判断前后左右这样的相对位置,定量的估计表现差强人意,如计数,估计距离等;
动态信息的处理能力弱:在面对多视角或者视频输入的时候,模型的性能严重下降,对应的任务设定有估计速度,或者相机位姿等等;
空间想象能力的严重缺失:模型更容易回答从图中直接读取信息的问题,但是对于需要空间建模/想象的问题,表现严重落后;