来源:3D视觉工坊
论文信息
论文名称:FaithFusion: Harmonizing Reconstruction and Generation via Pixel-wise Information Gain
论文地址:https://arxiv.org/abs/2511.21113
项目主页:https://shalfun.github.io/faithfusion
代码链接:https://github.com/wangyuanbiubiubiu/FaithFusion
核心痛点:保真重建与创造生成的权衡难题

在自动驾驶场景重建中,融合 3D 高斯泼溅(3DGS)的高保真几何表达与扩散模型的强大外观生成能力,已成为实现逼真新视角合成的主流范式。然而,这一融合始终面临一个核心矛盾:如何在忠实还原几何结构与引入创造性外观之间取得平衡。失衡往往导致语义失真、几何漂移或过度修复等问题。
FaithFusion 的核心思路在于:不再依赖外部条件或经验性规则,而是从 3DGS 模型自身提取内在、可量化的指导信号。为此,该方法引入了一个信息论指标——像素级预期信息增益(Expected Information Gain, EIG),作为协调几何与外观生成的统一准则。 简单来说,EIG 衡量的是:对某个3DGS像素,在使用Diffusion进行理想的修复后,能带来多少有意义的几何或外观信息提升。这一指标将原本依赖人工设定的编辑策略,转化为一个可计算、可泛化的客观标准。
在 FaithFusion 框架中,EIG 起到了类似“指挥家”的作用,通过一个基于信息增益的双向加权机制,动态决定每个像素“该生成还是该保持”:
-
在生成端(空间权重):EIG 作为空间先验,抑制对低信息增益区域的编辑,从而保护已有几何结构;同时,引导扩散模型聚焦于高信息增益区域,进行有针对性的外观修复。 -
在重建端(损失权重):EIG 被用作像素级损失权重,在知识蒸馏过程中降低低增益区域的监督强度,使 3DGS 模型优先学习那些真正具有修复价值的区域。
这一机制避免了盲目生成导致的几何漂移或语义失真,实现了几何保真与外观增强之间的有效协同。
FaithFusion的秘诀:EIG驱动下的三步范式
FaithFusion 的核心创新是将 像素级预期信息增益(EIG) 落地为可执行的技术框架——通过 EIGent 模块与渐进式训练循环,把信息论指导转化为“精准修复、保真重建”的实际效果。

预期信息增益 (EIG):从理论到落地的三重关键推导
EIG 是贯穿框架的核心指导工具,核心价值是精准判断每个像素的 3DGS 渲染可靠性与修复价值——本质是量化“Diffusion 修复结果能为 3DGS 模型参数减少多少不确定性”,为“该生成还是该保留”提供原则性依据。整个推导严格遵循补充材料 A.3 逻辑,分三步完成从理论到落地的闭环:
核心瓶颈:原始 EIG 依赖 GT 无法落地
EIG 的本质是 3DGS 模型参数 Ω 与新观测(真实 GT 像素 )之间的互信息:

原始定义中,EIG 计算需要依赖真实观测(GT) 来衡量“新观测带来的不确定性降低”——但新视角合成场景中,GT 完全不可得(目标就是生成未观测视角)。这是我们需要解决的首要问题。
第一步推导:GT 代理转化
这是 FaithFusion 能落地的核心前提!我们通过拉普拉斯近似完成从“依赖 GT”到“依赖 3DGS 渲染结果”的关键转化——先将 3DGS 参数后验建模为高斯分布 ,此时 3DGS 渲染结果 成为参数的确定性函数;而渲染结果与 GT 共享相同的参数依赖关系,其对应的 Fisher 信息能等价反映参数不确定性,所以可直接作为“真实观测 GT 的代理”;最终 EIG 计算彻底摆脱 GT 依赖,仅通过 3DGS 自身渲染结果和参数 Hessian 就能完成!
第二步推导:熵值近似化简
解决了 GT 依赖问题,下一步就是让计算落地!我们基于高斯后验假设,代入高斯分布的微分熵公式 ,把抽象的熵值转化为可计算的矩阵行列式形式;同时明确区分“先验观测信息”(对应参数初始不确定性)和“后验观测信息”(融合修复后新信息),最终得到简化后的 EIG 表达式,把复杂的不确定性计算变得工程可实现!

第三步推导:像素级落地
这步直接实现“精准到像素”的指导!我们先利用 log-det 不等式,将 EIG 近似为“参数协方差矩阵与观测 Fisher 信息矩阵乘积的迹”,大幅降低计算难度;再借助 Fisher 信息可加性原理,把全局 EIG 拆解为每个像素的局部贡献——沿着每条渲染光线累积 3D 高斯基元的 Fisher 信息,让每个像素的 EIG 都精准对应其 3D 几何层面的不确定性,最终得到像素级公式:

实验验证:EIG 代理与重建质量强相关
理论说得再好,实验才是硬支撑!下图直接实锤:EIG 与新视角合成质量(PSNR)高度相关,高 EIG 对应伪影、未观测等低质量区域,低 EIG 对应高置信清晰区域;掩盖掉高 EIG 区域像素后图像质量大幅提升!双重验证证明,我们的 EIG 代理转化完全有效,不用 GT 也能精准捕捉 3DGS 重建缺陷,成为“该修哪、该保哪”的智能决策依据!

EIG 将抽象的 3D 参数不确定性转化为像素级可计算的优化信号,通过信息论闭环统一了生成与重建目标,从根本上避免了传统方法依赖人工设计的启发式权重分配。
2. EIGent 模块:双分支引导修复

EIGent 通过 EIG 空间先验实现可控修复:EIG 图量化像素级信息价值,生成动态掩码 ,在扩散过程中抑制低 EIG 区域(可信背景)的修改,聚焦高 EIG 区域(缺失/低质内容)的生成。其双分支架构融合:
-
**轻量 EIG 上下文编码器 **:将 EIG 先验编码为多尺度空间引导; -
预训练 Video DiT 主干:保障时序一致性,接收 的门控特征注入。
关键在于 双重控制机制:
-
粗粒度引导:EIG 作为空间元数据注入 DiT,定义区域修复优先级; -
细粒度过滤:掩码 基于 EIG 阈值过滤高不确定性区域,阻断 3DGS 伪影污染 DiT 主干。
同时,通过交叉注意力选择性融合 DIFIX3D+ 的修复线索,以 EIG 权重调节可信度。该设计在保持背景稳定性的前提下,实现高增益区域的精准内容生成,兼顾感知质量与时空一致性。
EIG 的物理意义转化为可学习的空间门控信号,将扩散模型的"盲目生成"转化为"按需编辑",突破传统方法在背景保留与前景生成间的权衡困境。
3. 三步渐进式训练循环
FaithFusion 通过 EIG 驱动的迭代蒸馏 将修复知识有序注入 3DGS 模型,每轮循环包含三个协同步骤:
-
EIG引导的渲染:从当前 3DGS 渲染目标视角图像,并计算像素级 EIG 图,量化各区域对模型参数的约束强度; -
自适应修复:固定 EIGent 模型,输入渲染结果与 EIG 图,执行空间自适应修复——高 EIG 区域优先生成新内容,低 EIG 区域保留原始结构; -
不确定度驱动更新:以 EIG 为损失权重,将修复结果蒸馏至 3DGS。高 EIG 区域(高不确定性)获得更大梯度更新,驱动模型向信息增益最大方向进化。
在这个循环中,EIG 图随 3DGS 优化动态更新,形成 "渲染-修复-校正" 闭环,逐步消除欠约束区域,直至收敛。
该循环将 EIG 从静态先验升级为动态优化器,通过不确定性反馈机制,使 3DGS 在生成内容的引导下自主探索参数空间,实现几何与外观的协同进化,从根本上解决了传统蒸馏中噪声累积与结构退化问题。
实验验证:

在 3m偏移 场景下,FaithFusion 以 71.51 的最低 FID 和最优的0.581 NTA-IoU 证明了 EIG 引导的渐进式更新机制的有效性:EIG 权重损失在共视区域强化结构保真,同时在欠约束区域引导合理生成,实现细节与全局一致性的平衡。
在更具挑战性的 6m偏移 中,当其他方法因累积误差严重退化时,本方法仍保持 NTA-IoU 0.517 和 FID 107.47 的稳定性能。

可视化结果揭示核心优势:
-
几何鲁棒性:EIG 引导视频生成聚焦关键未见结构(如建筑立面),避免 ReconDreamer++ 中常见的地面扭曲; -
语义一致性:EIG 门控机制阻断 DIFIX3D+ 在高置信区域的过度修复。

消融实验定量验证三阶段协同增益:
-
**EIG 引导 DIFIX3D+**:抑制低增益区域的无效生成; -
+EIGent:通过时空一致性解决高不确定性区域的结构缺失; -
+渐进融合:EIG 加权损失防止过修复。
EIG 将信息论原则转化为可操作的优化信号,在无需外部先验(LiDAR/HDMap)的条件下,构建了生成质量与重建稳定性的动态平衡机制。这从根本上解决了传统方法在视角扩展中保真度-泛化性的权衡困境,使 3DGS 能在未知区域进行可控探索而非盲目生成。
更多可视化表现

sample 005 Lane Shift @ 3m

sample 005 Lane Shift @ 6m

sample 018 Lane Shift @ 3m

sample 018 Lane Shift @ 6m

sample 027 Lane Shift @ 3m

sample 027 Lane Shift @ 6m

不同方法在 Lane Shift @ 6m结果对比