ICCV 2025｜告别语义漂移！清华最新3D场景定制神器ScenePainter让“想象”走得更远

点击下方卡片，关注“AI生成未来”

如您有工作需要分享，欢迎联系：aigc_to_future

作者：Chong Xia等

解读：AI生成未来

文章链接：https://arxiv.org/pdf/2507.19058
项目链接：https://xiac20.github.io/ScenePainter/

亮点直击
设计了一种场景级定制方法，通过构建场景的概念与关系来生成一致的场景视图。
提出了一种新的3D场景生成框架 ScenePainter，该框架将外绘模型与场景特定先验对齐，以实现一致且多样化的场景扩展。
与之前的最先进方法相比，本框架能够生成更一致且生动的3D视图序列。

总结速览

解决的问题

语义漂移问题：现有3D场景生成方法在连续视图扩展过程中，由于外绘（outpainting）模块的累积偏差，导致生成的场景序列出现语义不一致（如场景从沙漠突然变为湖泊）。
多样性不足：早期方法（如InfiniteNature-Zero）为避免语义漂移，限制相机移动和新增物体，导致场景单调。
复杂场景理解不足：现有方法难以捕捉场景中多层次概念（如物体、布局、风格）及其复杂关系（如空间位置、语义分布）。

提出的方案

ScenePainter框架：

概念关系构建：通过分层图结构（SceneConceptGraph）建模场景中多层次概念（物体、布局、风格等）及其关系，生成场景特定的文本嵌入和优化后的扩散模型。
概念关系细化：在生成过程中动态更新SceneConceptGraph，平衡语义一致性与多样性（如新增物体、平滑过渡到新场景）。

两阶段流程：
对齐外绘先验：将外绘模块与场景特定先验（SceneConceptGraph）对齐，减少生成偏差。

应用的技术

SceneConceptGraph：

分层图结构表示场景中物体、语义分布、空间布局等概念及其关系。
通过文本嵌入和扩散模型优化，将概念-关系对转化为生成先验。

扩散模型定制化：

基于SceneConceptGraph优化文本到图像模型，生成场景特定的嵌入。

动态图细化：

在生成过程中动态调整SceneConceptGraph，支持新增对象或场景过渡。

达到的效果

语义一致性：克服语义漂移问题，生成长序列连贯的3D场景（如保持沙漠场景的一致性）。
多样性增强：通过动态图细化，支持灵活的场景扩展和内容创新（如新增物体或切换至雪景）。
沉浸式体验：实验表明生成的3D视图序列更一致且富有沉浸感，适用于长视频合成和3D场景重建。

方法

ScenePainter概述

持续性3D场景生成的目标是从任意单张图像出发，沿着指定的长距离相机轨迹，合成一系列一致且多样化的3D视图。通用流程主要包括三个迭代过程：反投影（unproject）、渲染（render）和外绘（outpaint），可进一步解释为将当前2D图像提升为3D表示、在下一视图相机下渲染部分图像，并通过外绘完成下一张完整图像。整个过程可以是模块化的，利用预训练的单目深度估计器、外绘模型和可选的视觉语言模型。为了数学化描述这一点，假设生成的视图流表示为，其中每个分量由导出，公式为

其中、、、、分别表示第帧的估计深度、指定相机轨迹、待外绘的部分图像和掩码，以及可选的文本提示。为确保几何一致性，先前工作主要关注单张2D图像在3D空间中的表示（对应上述）和统一的3D场景表示（对应）以建立合适的几何结构。这些方法主要贡献在于特定的深度优化策略和有效的3D表示形式，如点云、网格和高斯面元。

然而，除几何一致性外，语义一致性也是3D场景生成中关键且具挑战性的问题。仅依赖部分图像和可选文本提示，现成的外绘模型难以提供与现有局部场景精确匹配的语义一致绘制结果，这归因于外绘器的有限性能和固有随机性。此外，尽管每次语义理解可能仅存在微小偏差，但语义漂移误差会随迭代处理不断累积放大，导致与原始场景定义的显著差异，此现象称为语义传递问题。当首尾帧并列时，它们看起来像是来自两个完全不同的独立场景。

为解决该问题，本文提出ScenePainter：基于初始场景定义构建场景概念关系的统一全面理解，并将外绘器的场景特定先验与之对齐以确保语义一致性。在后续视图生成过程中，我们持续细化对场景关系的理解，同时确保外绘器同步更新，使场景能以可控方式演进和丰富。整个过程可表述为：

其中和分别表示初始优化的文本到图像生成模型和通过Blended Latent Diffusion (BLD)转换得到的外绘模型，用于场景扩展。指代名为SceneConceptGraph的特定多层图结构，用于概念关系提取，如下图2所示。

概念关系构建

给定初始场景视图，构建多层次场景概念间的关系图，其中和分别表示概念顶点集和关系边集。包含三层概念节点集，即。第一层节点集仅包含单一概念节点，表示整体环境和风格；第二层节点集包含所有需要关注的同类别区域（如森林或建筑群）；第三层节点集表示场景中最基本的物体。具体而言：

对于具有唯一性的物体，我们将其归入第二层节点集，此时单个物体代表其对应类别区域；
对于形态多样但属同类型的物体，则归类为第三层节点，而由多个物体构成的共同区域被划归第二层节点。

此外，每个概念存储其对应的区域掩码，每条关系边则取两个连接概念的联合区域作为其掩码。我们维护区域从属映射函数，使得任意第三层节点可确定其对应的第二层节点，该映射可表述为：

关系边集包含三种类型：

连接和的顶点，表示整个场景中类别区域的空间布局和风格；
连接内的顶点，表示不同类别区域间的相对空间布局和语义关联；
连接节点与对应的区域节点，表示类别区域内的相对空间布局。

鉴于场景中概念与关系的含义比纯文本描述更复杂全面，采用基于学习的方法优化概念与关系嵌入（广泛用于定制生成）。具体而言，从现成的文本到图像模型提取个文本控制符和，使得每个控制符对应特定概念或关系。优化后的控制符可作为文本提示指导新场景视图的合成及概念关系的新组合。与先前以物体为中心（使用基础物体控制符作为文本提示）不同，我们关注概念间关系，将每个关系-概念对作为文本引导，记为。

具体定制策略方面，两种经典方法是：

文本反转（TI）：提取文本嵌入但无法保持其身份；
DreamBooth（DB）：微调整个扩散模型但缺乏多样性。

因此我们分两阶段结合这两种策略，同时优化文本控制符和模型权重，使文本控制符与扩散模型能协同迭代更新，构建个性化理解。经优化的文本到图像生成模型（含场景特定先验）将作为外绘器的初始化参数，通过Blended Latent Diffusion策略用于后续视图生成。

控制符优化采用三种损失的组合：

掩码重建扩散损失
场景特定先验保持损失
交叉注意力损失

对每个关系-概念控制符对<>及其掩码和，保持两个概念不变并外绘其余部分，生成具有相似场景环境的新视图作为训练样本（用于场景先验保持和多样性）。随后在概念联合区域内监督重建质量，并通过各控制符与其对应掩码间的交叉注意力图监督，使控制符聚焦于所指区域。总损失函数可表示为：

其中，是时间步的带噪隐变量，是文本提示词，是手柄掩码的并集，是添加的噪声，是去噪网络，是手柄与带噪隐变量之间的交叉注意力图。和是用于平衡总损失函数组合的超参数。

在第一阶段完成后，本文构建了SceneConceptGraph，该图用专用文本嵌入表示概念和关系，同时为具有定制化场景特定先验的外绘模型准备了初始化权重。

概念关系细化

在视图序列生成阶段，依托于场景概念间关系的图结构，外绘模块倾向于生成与初始场景定义一致的新视图，这些视图共享统一的整体风格、相似的对象特征以及协调的空间布局。此外，在场景多样性和可编辑性方面，与以往采用预定义或自动生成文本提示作为外绘引导的方法不同（这些方法因外绘模型提示保真度有限而导致语义漂移问题），本文的模型对用户指定的文本提示更加友好，只需简单描述一个或多个手柄即可改变外观或空间位置，静音某个手柄可阻止其出现在下一帧中，并通过详细描述新对象来生成新概念。

此外，为了动态细化SceneConceptGraph以纳入新概念关系，并自适应对齐外绘模型的场景理解以生成更一致的后续视图，采用测试时训练方法同时更新新文本嵌入并调整外绘模型。与构建过程关注所有三类概念和关系不同，在细化阶段我们仅专注于第一级概念（即整体环境）与用户指定的第二级概念之间的一条关系边，以提高效率和实时性。具体来说，对于新增概念，分配新概念持有者和关系持有者，然后将关系-概念对<>作为训练用的文本嵌入。对于现有概念的更改，相应地采用关系-概念对<>。使用分割模型获取指定概念掩码，并通过前述的掩码扩散损失和交叉注意力损失优化文本手柄和模型权重。生成的视图序列倾向于在保持关系一致的同时实现多样化变更。

实验

对比方法

为评估本方法的性能，在两个任务中与先前方法进行比较：单图像定制和3D视图生成。对于单图像定制任务，利用构建的SceneConceptGraph与优化后的文生图模型，并选择四种卓越的定制方法比较生成图像的质量与保真度：InstantBooth、IP-Adapter、Custom Diffusion和 Break-A-Scene。对于3D视图生成任务，保留构建与细化流程，并选取两种前沿方法比较生成视图序列的性能：SceneScape和 WonderJourney。本文收集了包含自然、村庄、城市、室内场景或幻想场景等30个场景的数据集，并基于该数据集在后续部分展开详尽的定性与定量对比。

定性对比

单图像定制。下图3展示了与多种主流定制策略的定性对比。可见先前工作难以保持场景标识性，或几乎与原始场景完全一致。相比之下，本文的模型能以极高保真度生成场景视图，并通过新颖的场景概念组合方式实现高质量场景级定制，为后续场景生成阶段的外绘模型提供场景特定先验。

3D视图生成。下图4展示了与现有前沿方法生成的3D场景视图的定性对比。结果表明：随着生成推进，SceneScape 无法创建内容丰富的视图，而WonderJourney则严重受语义漂移问题困扰。即使对首帧视图进行多概念定制，基线方法BAS+WJ仍因缺乏多层次概念关系定制与测试时细化，遭遇布局单调、整体风格偏移及几何结构紊乱等问题。相比之下，本文的模型生成的场景视图具有更高一致性与视觉多样性。

此外，下图5展示了WonderJourney与本文的方法生成的中间3D表征对比。尽管采用相似的逆投影与渲染流程，对象与周围环境的不一致仍会导致3D几何结构失真。图6则通过多样化示例说明如何基于用户指令生成目标3D视图。更多3D视图序列、构建的3D场景及合成3D视频结果详见补充材料与演示视频。

定量对比

单图像定制。为量化评估方法与基线性能，我们聚焦于场景保真度评估（衡量生成图像对初始场景细节的保留程度），采用CLIP-I和DINO作为评估指标。这两个指标分别计算初始图像与生成图像的CLIP或ViT-S/16 DINO嵌入向量的平均成对余弦相似度。如下表1所示，本文的方法在CLIP-I与DINO指标上均取得最佳分数，表明其具有高保真度与强场景级定制能力。

3D视图生成。由于持续式3D场景生成是缺乏现有评估数据集的新任务，我们在自收集数据集子集上开展用户研究，重点评估用户偏好。按照各方法自身配置生成场景视图后，以视觉质量、多样性和一致性为指标进行并排对比，要求用户进行二选一决策。如表2所示，本文的模型在三项指标上均显著优于基线。WonderJourney生成极具想象力的场景，虽多样性尚可但因语义偏差导致一致性低下；SceneScape则因外绘空白区域受限，生成结果一致但单调。总体而言，本文的方法实现了多样性-一致性的良好平衡，生成沉浸式3D场景视图。

消融实验

本文进一步通过消融实验验证构建损失函数（公式5）与SceneConceptGraph结构的有效性。图7与表3显示：主要保障视觉质量，激发多样化对象生成，避免不合理对象分布与组合。图8与表3亦表明：移除第一级概念（整体环境）会导致风格迁移泛化，移除第三级概念（独立对象）会引发对初始场景布局的过拟合，而无关系构建则会导致布局扭曲与几何结构混乱。

实现细节

在概念关系构建与细化阶段，采用Stable Diffusion作为基础文生图与外绘模型，并利用SAM进行掩码分割。通过两阶段的概念-关系对提示定制基础模型：第一阶段遵循Textual Inversion方法，以学习率训练文本编码器400步；第二阶段采用DreamBooth方法，以学习率训练整个扩散模型400步。细化过程中，为提升测试时效率，仅以学习率微调UNet模块50步。训练在单张NVIDIA A6000 GPU上完成，构建阶段耗时约5分钟，细化阶段需25秒。对于完整3D场景生成流程，在WonderJourney提出的逆投影与渲染流程基础上，采用定制化外绘模型，并通过Blended Latent Diffusion将文生图模型转换为具备场景特定先验迁移能力的外绘模型。

结论

ScenePainter框架，用于生成语义一致且视觉多样化的3D场景。构建并动态维护聚焦场景表征关系与概念的层次化图结构，将其作为专用文本嵌入以对齐和细化外绘模型的场景特定先验，从而实现与初始场景表现一致的扩展。大量实验表明，相比现有方法，本框架有效消除语义漂移问题，生成系列更一致生动的3D场景视图。

参考文献

[1] ScenePainter: Semantically Consistent Perpetual 3D Scene Generation with Concept Relation Alignment

致谢

如果您觉得这篇文章对你有帮助或启发，请不吝点赞、在看、转发，让更多人受益。同时，欢迎给个星标⭐，以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进，共同探索未知，见证一个充满希望和伟大的未来！

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！