手机拍三张,重建“开放3D语义世界” | 单扩散模型生成RGB/法线/语义图,开放词汇“任意查”!

AI产品汇 2025-07-07 07:45

打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,

用心写好每一篇文章!



项目主页-https://liuff19.github.io/LangScene-X/

代码链接-https://github.com/liuff19/LangScene-X

论文链接-https://arxiv.org/pdf/2507.02813



为什么需要这个算法?--从2D图像中恢复具有开放词汇场景理解的3D结构是一项基本但艰巨的任务。最近的方法严重依赖于校准的密集视图重建范式,从而在有限的视图可用时遭受严重的渲染伪影和难以置信的语义合成。
这个算法能做什么?-- LangScene-X是一个统一的大模型,它可以从稀疏视图输入中生成RGB、分割图和法线图以及重建的3D场景。
这个算法效果如何?-- 大量实验结果表明:LangScene-X在质量和可推广性方面优于最先进的方法,多项客观指标上面有了接近50%+的提升!



01-LangScene-X核心优势

    本文介绍了一种新的生成框架LangScene-X,它用于统一和生成3D一致的多模态信息,从而进行后续的重建和理解。借助创建更一致的生成能力,它可以仅从稀疏视图构建出一些可泛化的3D语言嵌入场景。

    具体来说,作者首先训练一个TriMap视频扩散模型,该模型可以通过渐进式知识集成从稀疏输入中生成外观(RGBs)、几何(法线)和语义(分割图)。

    此外,作者提出了一种在大规模图像数据集上训练的语言量化压缩器(LQC),它可以有效地对语言嵌入进行编码,从而实现跨场景泛化,而无需对每个场景进行再训练

    最后,作者通过将语言信息对齐到3D场景的表面上来重建语言表面场,从而实现开放式语言查询。

02-LangScene-X落地场景

02.01-生成外观&几何&语义

    上面的视频展示了该方法生成的RGB、分割与法线估计效果。最左边一行表示模型生成的视频,中间一行表示该模型语义分割输出结果,最右边表示该模型的法线估计结果。

02.02-目标快速检索
    上面的视频展示了该方法在文本快速检索场景下的应用效果。通过观察与分析,我们可以发现:该方法可以精准的根据文本提示来快速检索出该目标的语义信息,这在很多场景中大有用处。

03-LangScene-X上手指南

#步骤1-克隆代码到本地git clone https://github.com/liuff19/LangScene-X.git cd LangScene-X
#步骤2-创建&激活虚拟环境conda create -n langscenex python=3.10 -y conda activate langscenex
#步骤3-安装三方依赖包conda install pytorch torchvision -c pytorch -y pip install -e field_construction/submodules/simple-knn pip install -e field_construction/submodules/diff-langsurf-rasterizer pip install -e auto-seg/submodules/segment-anything-1 pip install -e auto-seg/submodules/segment-anything-2 pip install -r requirements.txt
#步骤4-从该链接下载模型权重huggingface download https://huggingface.co/chijw/LangScene-X
#步骤5-运行样例Demochmod +x quick_start.sh ./quick_start.sh <first_rgb_image_path> <last_rgb_image_path>


04-LangScene-X性能评估

04.01-主观效果评估
    上图展示了该方法与多个SOTA的方法分别在LERF-OVS和Scannet数据集上面的输出结果。通过观察与分析,我们可以发现:与其它基线方法相比,该方法输出的分割结果更精准,与GT更接近一些。
    上图展示了该方法与多个基线方法在LERF-OVS基准上面的定性比较结果。作者利用各种文本提示可视化文本查询激活掩码结果。通过观察与分析,我们可以发现:该方法的文本对齐能力更强一些。
04.02-客观指标评估
    上表展示了该方法与多个SOTA的方法在LERF-OVS和Scannet数据集上面的客观指标评估结果。通过仔细比较与分析,我们可以发现:该方法输出的多项指标大幅优于其它方法,这充分证明其有效性。

关注我,AI热点早知道,AI算法早精通,AI产品早上线!



禁止私自转载,需要转载请先征求我的同意!

欢迎你的加入,让我们一起交流、讨论与成长!

若二维码失效:关注公众号--》交流分享--》联系我们

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号