NeurIPS'25开源 | 首个免对齐框架SIU3R！无需2D特征对齐，0.1秒同时实现场景理解与三维重建！

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

3D视觉工坊很荣幸邀请到了武汉大学徐淇和西湖大学韦东旭，为大家着重分享他们团队的工作。如果您有相关工作需要分享，欢迎文末联系我们。

NeurIPS'25开源 | 首个免对齐框架SIU3R！无需2D特征对齐，0.1秒同时实现场景理解与三维重建！图1 SIU3R: SImultaneous Scene Understanding and 3D Reconstruction Beyond Feature Alignment
主页：https://insomniaaac.github.io/siu3r/
代码：https://github.com/WU-CVGL/SIU3R

直播信息

时间

2025年10月10日(周五)19：00

主题

NeurIPS'25 Spotlight开源 | 首个免对齐框架SIU3R！无需2D特征对齐，0.1秒同时实现场景理解与三维重建！

直播平台

3D视觉工坊视频号

点击按钮预约直播

3D视觉工坊哔哩哔哩也将同步直播 NeurIPS'25开源 | 首个免对齐框架SIU3R！无需2D特征对齐，0.1秒同时实现场景理解与三维重建！图2

主讲嘉宾

徐淇

武汉大学摄影测量与计算机视觉实验室硕士在读，目前在西湖大学空间智能与机器人实验室访问。研究方向为三维视觉基础模型、三维多模态大模型。

韦东旭

浙江大学博士毕业，曾于阿里巴巴达摩院城市大脑实验室从事视觉算法研究，目前在西湖大学工学院担任博士后。研究方向为可泛化的三维重建与生成、空间智能感知与理解。

直播大纲

背景与动机
技术方案
实验结果分析

参与方式

NeurIPS'25开源 | 首个免对齐框架SIU3R！无需2D特征对齐，0.1秒同时实现场景理解与三维重建！图3

工作简介

本文是西湖大学刘沛东教授团队在3D场景理解与重建领域的最新研究成果，相关论文已被 NeurIPS 2025 接收，并被选为 Spotlight，代码/数据/模型权重已开源。

项目主页：https://insomniaaac.github.io/siu3r/
论文链接：https://arxiv.org/abs/2507.02705
项目代码：https://github.com/WU-CVGL/SIU3R

背景与动机

近年来，三维重建和场景理解技术都取得了长足的进步，但两者往往被作为独立任务来研究，这阻碍了端到端具身智能系统的发展。为了将两者结合，近期的工作（如 DFF, LERF, LSM 等）大多遵循一种 “2D-到-3D特征对齐” 的范式：首先从预训练的2D视觉语言模型（如CLIP）中提取2D特征，然后通过逐场景优化的方式，将这些2D特征“贴”到三维几何表示（如NeRF或3D高斯）上。然而，这种“特征对齐”的范式存在两大固有瓶颈：

实例级别理解能力受限：依赖的2D大模型通常缺乏精细的实例识别能力，导致现有的3D理解方法难以完成实例分割或全景分割等需要区分不同物体的任务。
特征压缩导致信息损失：为了在三维空间中高效存储和渲染，从2D模型提取的高维特征（如512维）通常需要被压缩到较低维度（如64维）。这种压缩会丢失大量细粒度的语义信息，从而降低3D理解的精度。

为了从根本上解决上述问题，我们提出了SIU3R，一个首创的、无需特征对齐的、可泛化的同时进行场景理解与三维重建的框架。我们的核心思想是：放弃“隐式特征对齐”，回归“原生3D理解”。我们不将2D特征“贴”到3D高斯球/点云上，而是通过像素对齐的2D到3D提升（2D-to-3D Lifting），让模型直接在3D空间中进行理解，从而摆脱2D特征模型的性能瓶颈和信息损失问题。

NeurIPS'25开源 | 首个免对齐框架SIU3R！无需2D特征对齐，0.1秒同时实现场景理解与三维重建！图4

图1. “特征对齐”范式 vs. SIU3R的“免对齐”范式

技术方案

1. 整体框架:
如图2所示，SIU3R框架的核心在于通过像素对齐的3D表示（Pixel-Aligned 3D Representation）来桥接重建与理解两个任务。我们设计了统一查询解码器（Unified Query Decoder）和任务间互益机制（Mutual Benefit Mechanism），使得模型可以在共享的表示上，同时完成高质量的3D重建和多粒度的3D场景理解。

NeurIPS'25开源 | 首个免对齐框架SIU3R！无需2D特征对齐，0.1秒同时实现场景理解与三维重建！图5

图2. SIU3R方法的总体框架

2. 统一查询解码器 (Unified Query Decoder):
为了实现“原生3D理解”，我们不再依赖外部2D模型的特征。我们引入了一组统一的可学习查询（Unified Learnable Queries）。这组查询有两大特点：

跨任务共享：无论是语义分割、实例分割、全景分割，还是文本指向性分割，都由这一组查询统一完成。模型通过学习，将不同理解任务的知识嵌入到这些查询上。
跨视角共享：这组查询在处理不同输入视角时保持不变，确保了在三维空间中理解结果的一致性。这种设计使得SIU3R能够通过2D-to-3D Lifting直接在3D层面进行端到端的学习和推理，而不是间接地对齐2D特征，从而实现了更强大和更灵活的3D理解能力。

NeurIPS'25开源 | 首个免对齐框架SIU3R！无需2D特征对齐，0.1秒同时实现场景理解与三维重建！图6

图3. 统一查询解码器(Unified Query Decoder)的结构

3. 任务间互益机制 (Mutual Benefit Mechanism):
既然重建和理解共享同一个框架，它们之间能否互相促进？我们对此进行了深入探索，并设计了两个轻量级模块来显式地增强这种“双赢”关系：

从理解到重建：掩码引导的几何增强 (Mask-Guided Geometry Refinement)我们利用场景理解任务预测出的实例掩码（mask）来指导几何重建。具体来说，我们施加一个约束，要求同一个物体实例内部的深度预测应该是连续平滑的。这使得重建出的物体表面更完整，边缘更清晰，有效提升了物体边界处的几何质量。
从重建到理解：基于渲染的掩码聚合 (Mask-View Mask Aggregation)我们利用3D重建来提升3D理解的一致性。具体来说，模型为每个输入视角预测2D掩码，我们将其提升到三维高斯上。然后，通过在新视角下进行渲染，可以将来自不同源视角的信息进行融合和传播，从而生成在任意新视角下都高度一致的3D分割结果。这个过程无需额外训练，即插即用。

通过这两个模块，重建为理解提供了一致的几何先验，而理解则为重建提供了精细的结构指导，实现了1+1>2的效果。

NeurIPS'25开源 | 首个免对齐框架SIU3R！无需2D特征对齐，0.1秒同时实现场景理解与三维重建！图7

图4. 任务间互益机制

实验结果分析

我们在权威的室内场景数据集ScanNet上进行了大量实验，以验证SIU3R的有效性。实验结果表明，我们的方法在 3D重建、场景理解、同步3D重建与理解这三个方面均取得了当前最佳（State-of-the-Art）的性能。

NeurIPS'25开源 | 首个免对齐框架SIU3R！无需2D特征对齐，0.1秒同时实现场景理解与三维重建！图8

表1. SIU3R方法的定量实验指标

从表1可以看出，相较于之前基于特征对齐的方法，SIU3R不仅在PSNR等重建指标上表现优异，更在传统方法难以处理的实例分割（mAP）和全景分割（PQ）任务上取得了巨大优势，充分证明了我们“免对齐”框架的优越性。

此外，消融实验详细验证了我们提出的各个模块的有效性，特别是“任务间互益机制”中的两个模块，它们分别为重建和理解任务带来了显著的性能提升。

下图展示了SIU3R在重建和理解任务上的可视化效果。可以看到，我们的方法不仅能生成高质量、几何细节丰富的重建结果，还能同时输出精准的多粒度3D语义、实例和全景分割。

NeurIPS'25开源 | 首个免对齐框架SIU3R！无需2D特征对齐，0.1秒同时实现场景理解与三维重建！图9

图5. SIU3R方法的新视角合成与3D分割效果

我们还在补充材料中进行了更多实验分析，并提供了更多的定量和定性的结果，包括但不限于：

与优化方法的对比：SIU3R作为一个前馈网络，能够在0.1秒内完成重建与理解，而优化方法通常需要十分钟到数小时的逐场景优化。我们的方法不仅在速度上有压倒性优势，在性能上也远超这些方法。
真实场景下的泛化能力：我们在真实拍摄的室内场景中测试了SIU3R，结果显示其具有良好的泛化能力，重建效果和分割性能均保持在较高水平。

NeurIPS'25开源 | 首个免对齐框架SIU3R！无需2D特征对齐，0.1秒同时实现场景理解与三维重建！图10

图6. SIU3R方法在真实场景中的新视角合成与分割效果

个人和团队信息

徐淇

本文共同第一作者，武汉大学摄影测量与计算机视觉实验室硕士在读，目前在西湖大学空间智能与机器人实验室访问。研究方向为三维视觉基础模型、三维多模态大模型。

韦东旭

本文共同第一作者，浙江大学博士毕业，曾于阿里巴巴达摩院城市大脑实验室从事视觉算法研究，目前在西湖大学工学院担任博士后。研究方向为可泛化的三维重建与生成、空间智能感知与理解。

西湖大学-空间智能与机器人实验室

该实验室由刘沛东教授创立。刘沛东教授博士毕业于苏黎世联邦理工学院（ETH Zurich），师从 Marc Pollefeys 教授和 Andreas Geiger 教授，2021年获得计算机科学专业科学博士学位后加入西湖大学，目前已在CVPR、ICCV、ECCV、NeurIPS、ICLR、ICRA、TRO、TPAMI等国际顶级会议或期刊上发表论文40余篇。团队研究主要集中在三维计算机视觉、机器人和具身智能等领域，成员均来自上海交大、同济、西安交大、美国西北大学等海内外知名高校，拥有计算机科学与技术、自动化、机械电子等多专业背景。欢迎大家前来访问交流与合作。

武汉大学-摄影测量与计算机视觉实验室 (GPCV)

该实验室由季顺平教授创立。季顺平，武汉大学教授，博士生导师，珞珈青年学者，主持和参与多项国家自然科学基金面上项目、重大项目、重点项目、973计划、863计划等纵向科研项目。在ISPRS会刊、IEEE TGRS、PAMI、CVPR、ICCV、ECCV、NeurIPS等国际重要期刊和计算机视觉顶级会议上发表论文100余篇。团队研究主要集中在摄影测量与遥感、多模态大模型、三维视觉等方向，欢迎大家前来访问交流与合作。

注：3D视觉工坊很荣幸邀请到了武汉大学徐淇和西湖大学韦东旭，为大家着重分享他们团队的工作。如果您有相关工作需要分享，欢迎联系微信：cv3d009，请备注：宣传工作，则不予通过。