CVPR 2025 | Qwen赋能AI「看见」三维世界，SeeGround实现零样本开放词汇3D视觉定位 - 科技区角 CVPR 2025 | Qwen赋能AI「看见」三维世界，SeeGround实现零样本开放词汇3D视觉定位

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

3D视觉工坊很荣幸邀请到香港科技大学(广州)人工智能学域博士生李蓉，为大家着重分享她们团队的工作：SeeGround。如果您有相关工作需要分享，欢迎文末联系我们。

SeeGround: See and Ground for Zero-Shot Open-Vocabulary 3D Visual Grounding
论文：https://arxiv.org/pdf/2412.04383
主页：https://seeground.github.io/
代码：https://github.com/iris0329/SeeGround

直播信息

时间

2025年06月26日(周四)19：00

主题

CVPR’25开源 | Qwen赋能AI“看见”三维世界，SeeGround实现零样本开放词汇3D视觉定位

直播平台

3D视觉工坊哔哩哔哩

扫码观看直播，或前往B站搜索3D视觉工坊观看直播

3D视觉工坊视频号也将同步直播

主讲嘉宾

李蓉
香港科技大学 (广州) 人工智能学域博士生

香港科技大学 (广州) 人工智能学域二年级博士生，导师是梁俊卫教授。曾于法国国家信息与自动化研究所 (Inria) 实习。研究方向为三维场景理解与具身智能。相关研究成果发表于TPAMI、CVPR、ICCV等国际期刊和会议中。

个人主页：https://rongli.tech/

李仕杰
新加坡科技研究局研究科学家

新加坡科技研究局研究科学家，于2024年在德国波恩大学取得博士学位。曾在阿里巴巴达摩研究院，英特尔研究院和高通研究院实习。研究兴趣是自动驾驶以及机器人视觉，在TPAMI、TNNLS、ICCV、ICRA等会议和期刊上发表文章。

个人主页：https://sj-li.com/

孔令东
新加坡国立大学计算机系在读博士

新加坡国立大学计算机系博士三年级在读，导师是 Wei Tsang Ooi 教授和刘子纬教授。于上海人工智能实验室、英伟达研究院、字节跳动AI Lab等机构进行科研实习。主要研究方向为三维场景感知、理解与生成。入选苹果奖学金。相关研究成果发表于TPAMI、CVPR、ICCV、ECCV、NeurIPS、ICLR、ICRA等国际期刊和会议中，并多次入选Oral、Highlight、Spotlight展示。入选2025苹果AI学者名单。

个人主页：https://ldkong.com/

直播大纲

3D视觉定位相关工作概述
SeeGround方法介绍
SeeGround提升VLM空间理解能力
实验结果评估与分析
3D视觉定位前景与应用

参与方式

3D 视觉定位（3D Visual Grounding, 3DVG）是智能体理解和交互三维世界的重要任务，旨在让AI根据自然语言描述在3D场景中找到指定物体。

具体而言，给定一个3D场景和一段文本描述，模型需要准确预测目标物体的3D位置，并以3D包围框的形式输出。相比于传统的目标检测任务，3DVG 需要同时理解文本、视觉和空间信息，挑战性更高。

之前主流的方法大多基于监督学习，这类方法依赖大规模 3D 标注数据进行训练，尽管在已知类别和场景中表现优异，但由于获取 3D 标注数据的成本高昂，同时受限于训练数据分布，导致它难以泛化到未见过的新类别或新环境。为了减少标注需求，弱监督方法尝试使用少量 3D 标注数据进行学习，但它仍然依赖一定数量的 3D 训练数据，并且在开放词汇(Open-Vocabulary)场景下，模型对未见物体的识别能力仍然受限。

最近的零样本3DVG方法通过大语言模型（LLM）进行目标推理，试图绕开对 3D 训练数据的需求。然而，这类方法通常忽略了3D视觉细节，例如物体的颜色、形状、朝向等，使得模型在面对多个相似物体时难以进行细粒度区分。这些方法就像让AI“闭着眼睛” 理解3D世界，最终导致模型难以精准定位目标物体。

因此，如何在零样本条件下结合视觉信息与3D空间关系，实现高效、准确的 3DVG，成为当前3D视觉理解领域亟待解决的问题。

为此，来自香港科技大学(广州）、新加坡A * STAR研究院和新加坡国立大学的研究团队提出了SeeGround：一种全新的零样本3DVG框架。该方法无需任何3D训练数据，仅通过2D视觉语言模型（VLM）即可实现3D物体定位。其核心创新在于将3D场景转换为2D-VLM可处理的形式，利用2D任务的强大能力解决3D问题，实现对任意物体和场景的泛化，为实际应用提供了更高效的解决方案。SeeGround已被CVPR 2025接收，论文、代码和模型权重均已公开。

注：3D视觉工坊很荣幸邀请到香港科技大学(广州)人工智能学域博士生李蓉，为大家着重分享她们团队的工作：SeeGround。如果您有相关工作需要分享，欢迎联系微信：cv3d009 请备注：直播宣传，则不予通过。