点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!


论文地址:https://arxiv.org/abs/2508.08252
项目代码:https://github.com/heshuting555/ReferSplat
论文概述
该论文提出了三维高斯指代性分割(R3DGS)这一新任务,旨在实现基于自然语言描述(通常包含空间关系或对象属性)在三维高斯渲染场景中的目标对象分割。该任务要求模型根据自然语言识别目标对象,即使这些对象在当前视角下可能被遮挡或不可见,具有显著的挑战性。为推动该方向研究,论文构建了首个用于该任务的数据集 Ref-LERF,并提出了 ReferSplat 框架。该框架引入空间感知建模范式,将自然语言表达与三维高斯点直接对齐建模,显著增强了模型对复杂空间关系和多模态语义的理解能力。ReferSplat在新提出的 R3DGS 任务和三维开放词汇分割基准上均取得了领先性能。该工作为多模态三维理解和具身智能的发展奠定了基础,在推动人工智能向更自然、更灵活的人机交互方向演进方面具有重要意义。 研究动机:从“类别匹配”走向“会理解空间关系的3D指代” 现有3DGS语义开放词汇分割方法,多依赖将渲染的2D语义特征与文本类名做匹配;训练阶段文本与3D高斯并不直接交互,难以处理“左边/后面/桌子上的那个……”等相对位置关系,对遮挡更是无能为力。这使它们在真实场景的语言互动中受限。我们将问题前移,直接在3D高斯层面建模与语言的对应关系,并提出R3DGS任务与Ref-LERF数据集来系统评估这一能力。Ref-LERF的描述更长、更强调空间词汇,平均句长大于13.6 个词,显著高于以往 3DGS 语义数据的“类名匹配”设定的开放词汇分割,更贴近真实交互需求。

方法

ReferSplat的核心在于:把语言理解“灌注”到 3D 高斯上,并在 3D 空间内完成与文本的精确对齐与推理。框架包含四个关键组件:
1. 高斯语言指代场
为每个 3D 高斯引入“指代特征向量”,用来度量其与文本词向量/句向量的相似度;渲染阶段不再只渲染颜色或语义特征,而是直接渲染“高斯-文本相似度响应图”,得到分割掩码,并用伪真值监督。这样文本与 3D 高斯在训练中显式交互,具备跨视角、跨遮挡的语言定位能力。
2. 位置感知的跨模态交互
仅有语义还不够,指代语句常带空间关系。我们从高斯中心坐标提取位置嵌入,并通过与词特征的对齐,推断文本端的位置线索;再用位置引导的注意力联合优化高斯指代特征,使其同时编码语义+位置,从而在“左侧/后方/靠近某物体”等描述下做出准确分割。
3. 伪掩码生成
我们用 Grounded-SAM 产生多候选掩码,并提出置信度加权的 IoU 选择策略:同时考虑候选间 IoU 一致性与模型置信,显著提升伪掩码质量,进而提升最终分割精度。
4. 高斯—文本对比学习
针对“语义相近但指代不同目标”的歧义表达,我们从响应最高的高斯集合中汇聚出正样本高斯嵌入,与对应文本做对象级对比学习,显著增强细粒度区分能力。并采用两阶段优化:第一阶段模型渲染的掩码再反哺第二阶段训练,进一步提升鲁棒性。
一句话理解ReferSplat:在3D高斯层上加上语言感知,用位置感知的注意力与对比学习把语言和3D空间严丝合缝地对齐;伪掩码质量用置信 IoU把关,最后再两阶段精修。
实验
我们在新构建的 Ref-LERF上评估R3DGS任务,并在LERF-OVS、3D-OVS 等开放词汇基准上全面对比。Ref-LERF共4个真实场景、59 个物体、295 条语言描述(训练 236,测试 59),空间词汇与细粒度属性描述更丰富。
1. Ref-LERF上的R3DGS结果
R3DGS 主结果:ReferSplat 在 Ref-LERF 上以 29.2 mIoU 取得最优,显著超过 Grounded-SAM(15.8)、LangSplat(13.9)、GS-Grouping(14.4)与 GOI(20.5);在 “ramen / kitchen / figurines / teatime” 等场景均有明显优势(如 35.2 / 24.4 / 25.7 / 31.3)。这验证了“3D 高斯层上的语言交互 + 位置建模 + 对比学习”的有效性。

2. LERF-OVS/3D-OVS 上的开放词汇分割结果
开放词汇 3DGS(LERF-OVS / 3D-OVS):虽然我们的方法不是专为 3DOVS 设计,ReferSplat 仍取得SOTA。在 LERF-OVS 上平均 55.4(优于 LangSplat 的 51.4),在 3D-OVS 上平均 94.1(优于 93.4)。


3. 可视化结果
我们有效地捕捉了高斯点和文本之间的空间关系,即使在严重遮挡或不可见物体的具有挑战性的场景中也能实现卓越的分割,如 (a) 和 (b) 所示。

总结
ReferSplat首次系统性把“自然语言指代”引入 3D Gaussian Splatting,在可遮挡/不可见目标的定位与分割上给出有效解决方案。未来,可以拓展到 4DGS(动态场景)、3D 视觉定位与尺度估计,并计划构建更大规模数据集,以进一步提升泛化与空间推理能力。
3D视觉1V1论文辅导来啦!
3D视觉学习圈子
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!