CVPR 2025 | Qwen赋能AI「看见」三维世界,SeeGround实现零样本开放词汇3D视觉定位

3D视觉工坊 2025-06-26 07:00

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

3D视觉工坊很荣幸邀请到香港科技大学(广州)人工智能学域博士生李蓉,为大家着重分享她们团队的工作:SeeGround。如果您有相关工作需要分享,欢迎文末联系我们。

SeeGround: See and Ground for Zero-Shot Open-Vocabulary 3D Visual Grounding
论文https://arxiv.org/pdf/2412.04383
主页https://seeground.github.io/
代码https://github.com/iris0329/SeeGround

直播信息

时间

2025年06月26日(周四)19:00

主题

CVPR’25开源 | Qwen赋能AI“看见”三维世界,SeeGround实现零样本开放词汇3D视觉定位

直播平台

3D视觉工坊哔哩哔哩

扫码观看直播,或前往B站搜索3D视觉工坊观看直播

3D视觉工坊视频号也将同步直播

主讲嘉宾

李蓉
香港科技大学 (广州) 人工智能学域博士生

香港科技大学 (广州) 人工智能学域二年级博士生,导师是梁俊卫教授。曾于法国国家信息与自动化研究所 (Inria) 实习。研究方向为三维场景理解与具身智能。相关研究成果发表于TPAMI、CVPR、ICCV等国际期刊和会议中。

个人主页https://rongli.tech/

李仕杰
新加坡科技研究局研究科学家

新加坡科技研究局研究科学家,于2024年在德国波恩大学取得博士学位。曾在阿里巴巴达摩研究院,英特尔研究院和高通研究院实习。研究兴趣是自动驾驶以及机器人视觉,在TPAMI、TNNLS、ICCV、ICRA等会议和期刊上发表文章。

个人主页https://sj-li.com/

孔令东
新加坡国立大学计算机系在读博士

新加坡国立大学计算机系博士三年级在读,导师是 Wei Tsang Ooi 教授和刘子纬教授。于上海人工智能实验室、英伟达研究院、字节跳动AI Lab等机构进行科研实习。主要研究方向为三维场景感知、理解与生成。入选苹果奖学金。相关研究成果发表于TPAMI、CVPR、ICCV、ECCV、NeurIPS、ICLR、ICRA等国际期刊和会议中,并多次入选Oral、Highlight、Spotlight展示。入选2025苹果AI学者名单。

个人主页https://ldkong.com/

直播大纲

  1. 3D视觉定位相关工作概述
  2. SeeGround方法介绍
  3. SeeGround提升VLM空间理解能力
  4. 实验结果评估与分析
  5. 3D视觉定位前景与应用

参与方式

3D 视觉定位(3D Visual Grounding, 3DVG)是智能体理解和交互三维世界的重要任务,旨在让AI根据自然语言描述在3D场景中找到指定物体。

具体而言,给定一个3D场景和一段文本描述,模型需要准确预测目标物体的3D位置,并以3D包围框的形式输出。相比于传统的目标检测任务,3DVG 需要同时理解文本、视觉和空间信息,挑战性更高。

之前主流的方法大多基于监督学习,这类方法依赖大规模 3D 标注数据进行训练,尽管在已知类别和场景中表现优异,但由于获取 3D 标注数据的成本高昂,同时受限于训练数据分布,导致它难以泛化到未见过的新类别新环境。为了减少标注需求,弱监督方法尝试使用少量 3D 标注数据进行学习,但它仍然依赖一定数量的 3D 训练数据,并且在开放词汇(Open-Vocabulary)场景下,模型对未见物体的识别能力仍然受限。

最近的零样本3DVG方法通过大语言模型(LLM)进行目标推理,试图绕开对 3D 训练数据的需求。然而,这类方法通常忽略了3D视觉细节,例如物体的颜色、形状、朝向等,使得模型在面对多个相似物体时难以进行细粒度区分。这些方法就像让AI“闭着眼睛” 理解3D世界,最终导致模型难以精准定位目标物体。

因此,如何在零样本条件下结合视觉信息与3D空间关系,实现高效、准确的 3DVG,成为当前3D视觉理解领域亟待解决的问题。

为此,来自香港科技大学(广州)、新加坡A * STAR研究院和新加坡国立大学的研究团队提出了SeeGround:一种全新的零样本3DVG框架。该方法无需任何3D训练数据,仅通过2D视觉语言模型(VLM)即可实现3D物体定位。其核心创新在于将3D场景转换为2D-VLM可处理的形式,利用2D任务的强大能力解决3D问题,实现对任意物体和场景的泛化,为实际应用提供了更高效的解决方案。SeeGround已被CVPR 2025接收,论文、代码和模型权重均已公开。

:3D视觉工坊很荣幸邀请到香港科技大学(广州)人工智能学域博士生李蓉,为大家着重分享她们团队的工作:SeeGround。如果您有相关工作需要分享,欢迎联系微信:cv3d009 请备注:直播宣传,则不予通过。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 定位
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号