打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,
用心写好每一篇文章!
项目主页-https://liuff19.github.io/LangScene-X/
代码链接-https://github.com/liuff19/LangScene-X
论文链接-https://arxiv.org/pdf/2507.02813

01-LangScene-X核心优势
本文介绍了一种新的生成框架LangScene-X,它用于统一和生成3D一致的多模态信息,从而进行后续的重建和理解。借助创建更一致的生成能力,它可以仅从稀疏视图构建出一些可泛化的3D语言嵌入场景。
具体来说,作者首先训练一个TriMap视频扩散模型,该模型可以通过渐进式知识集成从稀疏输入中生成外观(RGBs)、几何(法线)和语义(分割图)。
此外,作者提出了一种在大规模图像数据集上训练的语言量化压缩器(LQC),它可以有效地对语言嵌入进行编码,从而实现跨场景泛化,而无需对每个场景进行再训练
最后,作者通过将语言信息对齐到3D场景的表面上来重建语言表面场,从而实现开放式语言查询。
02-LangScene-X落地场景
上面的视频展示了该方法生成的RGB、分割与法线估计效果。最左边一行表示模型生成的视频,中间一行表示该模型语义分割输出结果,最右边表示该模型的法线估计结果。
03-LangScene-X上手指南

#步骤1-克隆代码到本地
git clone https://github.com/liuff19/LangScene-X.git
cd LangScene-X
#步骤2-创建&激活虚拟环境
conda create -n langscenex python=3.10 -y
conda activate langscenex
#步骤3-安装三方依赖包
conda install pytorch torchvision -c pytorch -y
pip install -e field_construction/submodules/simple-knn
pip install -e field_construction/submodules/diff-langsurf-rasterizer
pip install -e auto-seg/submodules/segment-anything-1
pip install -e auto-seg/submodules/segment-anything-2
pip install -r requirements.txt
#步骤4-从该链接下载模型权重
huggingface download https://huggingface.co/chijw/LangScene-X
#步骤5-运行样例Demo
chmod +x quick_start.sh
./quick_start.sh <first_rgb_image_path> <last_rgb_image_path>
04-LangScene-X性能评估





关注我,AI热点早知道,AI算法早精通,AI产品早上线!

禁止私自转载,需要转载请先征求我的同意!
欢迎你的加入,让我们一起交流、讨论与成长!