ICLR 2026收录！南理工联合提出视觉混合扩散模型VMDiff，让跨物体融合告别拼贴走向创造

智猩猩Pro整理

XZR投稿

过去几年，图像生成模型已经非常擅长“听懂提示词”和“画出好看的图”。如果我们输入“一个玻璃罐”和“一只猫头鹰”，很多模型都能生成一张同时包含这两个元素的图片。但如果进一步要求模型把它们真正融合成一个新物体，例如“一个像玻璃罐一样透明、又具有猫头鹰头部和羽毛结构的新实体”，事情就会明显变难。

南京理工大学&南京大学研究团队联合提出的用于跨物体合成的视觉混合扩散模型 VMDiff 正是要解决上述问题。VMDiff 关注的不是普通的多概念生成，也不是简单的图像编辑，而是一个更细、更接近真实创作需求的问题：跨物体视觉融合。给定两个输入物体图像，模型需要生成一个新的单一实体，这个实体既保留两边的视觉特征，又不能像拼贴，也不能明显偏向其中一边。

这类能力对角色设计、潮玩设计、工业外观探索、电影动画概念设计都很有价值。真正的创作通常不是把 A 和 B 贴到同一张画面里，而是从 A 和 B 中抽取形态、材质、语义和风格，设计出一个新的 C。相关成果论文已被 ICLR 2026 收录。

ICLR 2026收录！南理工联合提出视觉混合扩散模型VMDiff，让跨物体融合告别拼贴走向创造图1

图 1 VMDiff 的目标不是让两个物体共同出现，而是让它们融合成一个结构连贯、语义平衡、视觉统一的新实体。

ICLR 2026收录！南理工联合提出视觉混合扩散模型VMDiff，让跨物体融合告别拼贴走向创造图2

论文标题：
VMDiff: Visual Mixing Diffusion for Limitless Cross-Object Synthesis
论文链接：
https://arxiv.org/abs/2509.23605
项目主页：
https://xzr52.github.io/VMDiff_index/
代码仓库：
https://github.com/xzr52/VMDiff_code

核心难点

ICLR 2026收录！南理工联合提出视觉混合扩散模型VMDiff，让跨物体融合告别拼贴走向创造图3

图 2 跨物体融合里常见的两类失败：共存但不融合，或者只偏向其中一边。

VMDiff 讨论的核心难点可以概括为两个：

第一类失败是 coexistent generation：共存但不融合。模型确实画出了两个概念，但它们只是靠近、重叠、拼接，仍然像两个彼此分离的对象。例如让模型融合“玻璃罐”和“猫头鹰”，结果可能只是猫头鹰站在玻璃罐旁边，或者猫头鹰被塞进一个罐子里。这种结果看起来包含了两个输入，但没有形成一个新的统一结构。

第二类失败是 bias generation：生成结果偏向一边。模型可能只保留更强势、更容易生成的概念，另一个输入几乎消失。例如“口红”和“钢铁侠手办”融合时，模型可能只生成一支红色口红，或者只生成一个机械人偶，无法同时保留两边的关键特征。

这两个问题说明，跨物体融合并不只是“多放几个概念”这么简单。它同时要求模型做到三件事：

两个输入的信息都要保留下来。
这些信息要长成一个单一实体。
两边贡献要平衡，不能被某一边吞掉。

VMDiff 的重要性就在于，它没有把这三件事混在一起处理，而是把它们拆成了更清晰的阶段，并为每一阶段设计了对应机制。

解决方法

ICLR 2026收录！南理工联合提出视觉混合扩散模型VMDiff，让跨物体融合告别拼贴走向创造图4

图 3 VMDiff 由 Hybrid Sampling Process 和 Efficient Adaptive Adjustment 组成。前者负责融合生成，后者负责自动搜索更平衡的参数。

VMDiff 的整体框架可以看成两大模块：Hybrid Sampling Process (HSP) 负责生成过程本身，Efficient Adaptive Adjustment (EAA) 负责自动调参。

1 Hybrid Sampling Process (HSP)

HSP 把扩散采样过程拆成两个阶段：前面用 Blending Noise (BNoise) 构造一个包含双边信息的语义噪声，后面用 Mixing Denoising (MDeNoise) 将这些信息逐步生成成一个统一实体。整个 HSP 过程简写成一个函数：

其中， $\small D$ 表示输入数据，包括两张输入图像 $\small I_1,I_2$ 、类别文本 $\small T_1,T_2$ 和生成 prompt； $\small I(\theta)$ 是在参数 $\small \theta$ 下得到的融合图像。

在研究中需要自适应搜索的参数是： $\small \theta=\{\alpha,\beta_1,\beta_2,\epsilon\}$ ；固定默认参数是： $\small \hat{\theta} = \{ \gamma_{\mathrm{den}}=5, \gamma_{\mathrm{inv}}=0, \gamma_{\mathrm{gen}}=4, T=999, t_{\mathrm{den}}=652 \}$ 。

$\small \alpha$ 主要控制后期融合比例， $\small \beta_ 1 ,\beta_ 2$ 控制前期两个输入在噪声构造中的影响， $\small \epsilon$ 是初始随机噪声。

也就是说，VMDiff 的自动搜索不是漫无目的地调所有东西，而是在一个很小但很关键的参数空间里找最优融合点。

该工作的一个关键理解是：跨物体融合不是一个单阶段问题。如果一开始就追求“混合”，容易把细节抹掉；如果一直只保留信息，又容易让两个概念并列存在。VMDiff 的做法是先把信息尽量装进生成过程里，再让它们在后续去噪中形成一个整体。

第一步：BNoise 阶段先解决“信息别丢”

ICLR 2026收录！南理工联合提出视觉混合扩散模型VMDiff，让跨物体融合告别拼贴走向创造图6

图 4. 在 BNoise 阶段，拼接比插值更有利于保留两个输入的细节。

很多人一听到“融合”，第一反应是插值。比如把两个特征向量按比例平均，得到一个中间状态。但 VMDiff 在前期没有这样做，而是选择了 concatenate（拼接）。

这个选择看起来有些反直觉，但其实很关键。BNoise 阶段的任务不是马上生成最终图像，而是构造一个带有两边语义信息的噪声起点。此时最怕的不是“不够统一”，而是“信息提前丢失”。

两个不同物体的特征往往并不对齐。一个物体的关键特征可能是轮廓，一个可能是材质；一个可能是局部形状，一个可能是颜色和纹理。如果在这个阶段直接插值，很多不对齐的细节会在平均过程中被冲淡。比如猫头鹰的眼睛、羽毛纹理、玻璃罐的透明材质和边缘结构，这些信息可能在过早混合时互相抵消。

BNoise 公式可以写成两步。先从初始高斯噪声 $\small \epsilon$ 出发，带着双边视觉条件和文本条件去噪到中间时刻 $\small t_{ \mathrm {den}}$ ：

然后再从中间时刻反演回噪声端，得到被输入信息“改造过”的语义噪声 $\small \epsilon_b$ ：

ICLR 2026收录！南理工联合提出视觉混合扩散模型VMDiff，让跨物体融合告别拼贴走向创造图8

其中， $\small z_1=E_I(I_1)$ 、 $\small z_2=E_I(I_2)$ 是两张输入图像的视觉 embedding， $\small z_p=E_T(P_G)$ 是生成 prompt 的文本 embedding， $\small v_\phi$ 是扩散模型的噪声预测网络， $\small \sigma_t$ 是采样器中的噪声尺度。这里最关键的是 $\small z_{ \mathrm {SCat}}$ ：

这条公式直接说明了为什么 BNoise 是“拼接”而不是“插值”：它不是先把两个 embedding 压成一个平均向量，而是把加权后的两边视觉信息一起作为条件送进去。 $\small \beta_1$ 和 $\small \beta_2$ 就是在控制两边信息注入强度。

BNoise 的意义可以理解为：它不是最终融合，而是融合前的信息注入。

这个阶段解决的是“两个概念是否都在场”的问题。只有先保证两个输入都没有被模型忽略，后面才有可能谈真正的融合。

第二步：MDeNoise 阶段再解决“长成一个整体”

ICLR 2026收录！南理工联合提出视觉混合扩散模型VMDiff，让跨物体融合告别拼贴走向创造图10

图 5 在最终生成阶段，插值比继续拼接更容易形成单一、连贯的新实体。

前面的拼接解决了信息保留问题，但只做到这一步还不够。因为“两个概念都在”并不等于“两个概念已经融合”。

如果在最终去噪阶段仍然持续拼接，模型很可能继续把两边当成两个独立来源，最后生成“两个东西挤在一起”的结果。也就是说，拼接适合保留信息，但不一定适合形成统一结构。

因此，在 MDeNoise 阶段，VMDiff 切换到 spherical interpolation（球面插值）。相比普通线性插值，球面插值更适合在高维潜空间里沿着较自然的路径过渡，能够减少特征强度被简单平均削弱的问题。

MDeNoise 从 BNoise 得到的 $\small \epsilon_b$ 出发，一路去噪到最终图像：

ICLR 2026收录！南理工联合提出视觉混合扩散模型VMDiff，让跨物体融合告别拼贴走向创造图11

这里 $\small D(\cdot)$ 是解码器，负责把最终 latent $\small x_0$ 解码成图像。和 BNoise 不同，MDeNoise 不再使用拼接条件，而是使用球面插值得到的单一视觉表示：

ICLR 2026收录！南理工联合提出视觉混合扩散模型VMDiff，让跨物体融合告别拼贴走向创造图12

这里的 $\small \alpha$ 就是最终融合比例。直观上， $\small \alpha$ 越偏向一侧，生成结果越容易继承对应输入的结构和语义；但因为它通过球面路径过渡，模型更容易得到一个连续、统一的混合表示。

这一阶段的目标已经变了：前面是“别丢信息”，现在是“把信息组织成一个整体”。

也正因为目标变了，操作也必须变。VMDiff 不是全程使用同一种混合策略，而是根据扩散生成的阶段差异采用不同策略：

ICLR 2026收录！南理工联合提出视觉混合扩散模型VMDiff，让跨物体融合告别拼贴走向创造图13

2 Similarity Score：既要像两边，也要不偏一边

有了 HSP，模型已经能更好地生成融合体。但仍然存在一个问题：即使两个输入都被带入了生成过程，最终结果仍可能偏向其中一个输入。

为了解决这个问题，VMDiff 设计了一个 Similarity Score (SS)。这个分数的作用不是简单评估图片好不好看，而是评估生成结果是否满足跨物体融合的核心要求。公式为：

ICLR 2026收录！南理工联合提出视觉混合扩散模型VMDiff，让跨物体融合告别拼贴走向创造图14

其中， $\small S_{I_i}(\theta)$ 表示生成图像 $\small I(\theta)$ 和输入图像 $\small I_i$ 的视觉相似度，研究使用 DINO encoder 计算； $\small S_{T_i}(\theta)$ 表示生成图像 $\small I(\theta)$ 和类别标签 $\small T_i$ 的语义相似度，研究使用 CLIP 计算。这个公式可以拆成两组：

相似度奖励。 $\small S_{I_1}+S_{I_2}$ 让结果在视觉上同时接近两张输入图像； $\small S_{T_1}+S_{T_2}$ 让结果在语义上同时符合两个类别标签。
平衡性惩罚。 $\small |S_{I_1}-S_{I_2}|$ 惩罚视觉上的不平衡， $\small |S_{T_1}-S_{T_2}|$ 惩罚语义上的不平衡。如果结果非常像一边、几乎不像另一边，即使总相似度不低，也会被扣分。

这个设计很有意思，因为它把“融合”这件事定义得更明确了。好的融合结果不是单纯追求高相似度，而是要在双边相似度之间保持平衡。

换句话说，VMDiff 优化的目标不是生成一张最像某个输入的图。而是生成一张同时保留两边视觉和语义，并且两边贡献尽量均衡的图。这正好对应跨物体融合的真实需求。

3 Efficient Adaptive Adjustment (EAA)

ICLR 2026收录！南理工联合提出视觉混合扩散模型VMDiff，让跨物体融合告别拼贴走向创造图15

图 6 EAA 通过分层搜索逐步提升相似度并减小不平衡。

手动调参是生成任务里很常见的问题。不同物体组合的难度不一样，有的组合需要更偏向形状，有的需要更保留材质，有的则需要更强的语义约束。如果每一组输入都靠人工试参数，方法就很难真正实用。

VMDiff 因此提出 Efficient Adaptive Adjustment (EAA)。它根据 Similarity Score 自动搜索参数，而不是让用户凭感觉调整。EAA 主要调节三类变量：

ICLR 2026收录！南理工联合提出视觉混合扩散模型VMDiff，让跨物体融合告别拼贴走向创造图16

EAA 的总目标可以先写成一句最核心的优化式：

研究团队将其拆成一个轻量的分层搜索过程。这样做的好处是，不需要对整个生成模型做昂贵训练，也不需要复杂的梯度优化，就能在采样阶段找到更合适的融合点。

第一步：初始化噪声和参数

采样初始高斯噪声，并初始化参数：

这相当于先给模型一个中性的起点：融合比例从 0.5 开始，两边 BNoise 注入强度都设为 1。

第二步：搜索 $\mathbf{{\color[RGB]{2,30,170} \alpha} }$

在固定 $\small \beta_1,\beta_2,\epsilon$ 的情况下搜索 $\small \alpha$ 。研究使用 golden section search，在[0,1]区间内找到最好的融合比例：

这一步主要处理 MDeNoise 阶段的融合比例。简单说，就是先问：如果前期噪声强度不变，最终应该更偏向哪一边，才能让结果最像一个平衡的新物体？

第三步：搜索 $\mathbf{{\color[RGB]{2,30,170} \beta_1,\beta_2} }$

如果当前结果还没有达到接受阈值 $\small Th$ 就继续调整 $\small \beta_1,\beta_2$ 。论文中使用的阈值 $\small Th=2.4$ 。先定义两边各自的综合得分：

如果 $\small S_1>S_2$ ，说明当前结果更偏向输入 1，于是固定 $\small \beta_1$ ，搜索 $\small \beta_2$ 来增强输入 2 的影响：

否则就固定 $\small \beta_2$ ，搜索 $\small \beta_1$ 来补强输入 1：

这一步的逻辑很直观： $\small \alpha$ 解决后期怎么融合， $\small \beta_1,\beta_2$ 则回到前期 BNoise 阶段，调整两边信息一开始注入得够不够。

第四步：接受准则与重采样 $\mathbf{{\color[RGB]{2,30,170} \epsilon} }$

研究最多重采样 $\small K=3$ 次噪声。如果当前参数的 Similarity Score 超过阈值，就接受结果：

如果还没有超过阈值，但已经达到最大循环次数 $\small K$ ，就返回当前最好的参数：

否则重新采样噪声，进入下一轮：

这就是 EAA 的自动搜索公式。它不是在像训练神经网络那样反向传播，而是在一个低维参数空间里做“先找 $\small \alpha$ ，再调 $\small \beta$ ，必要时换 $\small \epsilon$ ”的零阶搜索。

此外， $\small \alpha$ 和 $\small \beta$ 的每次参数搜索最多涉及 10 次图像生成，因此它比梯度式 latent 优化轻量得多。

从图 6 可以看到，搜索过程并不是单纯让相似度越来越高，而是同时关注平衡性。某些中间结果可能看起来不错，但如果偏向其中一边，Similarity Score 仍然不会给出最高评价。

这让 EAA 不只是“自动调好看”，而是围绕 VMDiff 对融合的定义来调：既像两边，也不偏一边。

实验验证

为了系统评估跨物体融合，论文构建了 IIOF (Image-Image Object Fusion) 数据集，包含 780 个图像对，覆盖动物、水果、人造物体、角色手办等类别。

实验中，VMDiff 与多概念生成、个性化生成、图像混合和图像编辑方法进行了比较。核心观察是：很多基线方法可以生成视觉上不错的图片，但常常无法同时满足“单实体、双边保留、语义平衡”这三个要求。

表 1 IIOF 数据集上的定量对比结果

ICLR 2026收录！南理工联合提出视觉混合扩散模型VMDiff，让跨物体融合告别拼贴走向创造图26

从指标上看，VMDiff 在多项指标上表现最好，尤其是 Similarity Score 和 Bsim。这里可以这样理解：

SS 高说明生成结果同时保留了双边视觉和语义信息，并且平衡性较好。
Bsim 低说明结果没有严重偏向其中一边，双边贡献更均衡。

定性结果也支持这一点。

ICLR 2026收录！南理工联合提出视觉混合扩散模型VMDiff，让跨物体融合告别拼贴走向创造图27

图 7 与多概念生成方法相比，VMDiff 更能生成统一而平衡的融合体。

ICLR 2026收录！南理工联合提出视觉混合扩散模型VMDiff，让跨物体融合告别拼贴走向创造图28

图 8. 与混合和编辑方法相比，VMDiff 的结果更完整、更自然。

这些对比图里最值得看的不是哪张更“炫”，而是哪张更像一个真实存在的新物体。VMDiff 的优势通常体现在结构连贯性上：它不只是把一个物体的纹理贴到另一个物体上，也不是简单把两个轮廓叠在一起，而是尝试重新组织形态、材质和局部部件之间的关系。

重要贡献

如果只把 VMDiff 理解成一个“生成效果更好的方法”，其实会低估它的意义。它更重要的贡献是给跨物体融合提出了一套清晰的方法论。

第一，VMDiff 把跨物体融合的问题定义得更明确。研究强调真正的融合要生成单一实体，而不是两个实体共存。这让任务边界比普通多概念生成更清楚。

第二，VMDiff 把生成过程拆成了两个目标不同的阶段。BNoise 负责保留信息，MDeNoise 负责形成整体。这个拆分解释了为什么同一种混合操作无法适用于整个过程。

第三，VMDiff 用 Similarity Score 显式建模平衡性。很多方法只关注结果是否包含目标概念，但 VMDiff 进一步关注两边是否平衡。这对跨物体融合尤其重要。

第四，VMDiff 用 EAA 降低了手动调参成本。面对不同输入组合，EAA 能自动搜索更合理的融合点，使方法更接近可用的创作工具。

这四点合在一起，使 VMDiff 不只是一个技巧集合，而是一个围绕“视觉融合”任务设计的完整框架。

我的理解：VMDiff 的核心不是混合，而是分工。该研究最值得学习的地方，是它没有把所有问题都压到一个“融合操作”里。

很多方法遇到跨物体生成，会尝试设计更复杂的插值、更强的 prompt、更重的注意力控制。但 VMDiff 的思路更像是在问：现在这个阶段，到底最需要解决什么问题？

在噪声构造阶段，最重要的是保留信息，所以它用拼接。
在最终去噪阶段，最重要的是形成整体，所以它用插值。
在参数选择阶段，最重要的是避免偏置，所以它用 Similarity Score 和 EAA。

这种“按阶段分工”的思想很有启发性。它说明跨物体融合的失败往往不是模型完全不会画，而是不同目标之间发生了冲突：保信息和成整体会冲突，相似度和平衡性会冲突，创意性和可识别性也会冲突。VMDiff 的设计价值就在于，它把这些冲突拆开处理。

所以它最终想实现的不是：把 A 和 B 放在一起。而是：从 A 和 B 的视觉与语义中，生成一个新的、可信的 C。

适用场景与局限

VMDiff 适合那些需要探索新物体形态的场景，例如：

ICLR 2026收录！南理工联合提出视觉混合扩散模型VMDiff，让跨物体融合告别拼贴走向创造图29

当然，它也不是没有局限。跨物体融合本身是一个高度开放的问题，有些输入组合天然很难融合，例如结构差异极大、语义冲突强、尺度差别明显的物体。Similarity Score 能帮助筛选更平衡的结果，但它仍然依赖视觉-语言模型的判断能力。也就是说，评估模型如果误判，搜索过程也可能被带偏。

另外，VMDiff 更偏向采样阶段的控制方法，而不是重新训练一个专门模型。这让它更轻量，但也意味着它的上限仍然受底层扩散模型能力影响。

总结

VMDiff 解决的是跨物体视觉融合中的核心问题：如何让两个输入物体不只是共同出现，而是真正融合成一个新的单一实体。

它的关键思想可以概括为三句话：

在 BNoise 阶段，用拼接尽可能保留两边信息：

在 MDeNoise 阶段，用球面插值让两边特征形成统一整体：

ICLR 2026收录！南理工联合提出视觉混合扩散模型VMDiff，让跨物体融合告别拼贴走向创造图31

用 Similarity Score 和 EAA 自动寻找既相似又平衡的融合参数：

这让 VMDiff 的生成结果更接近真实创作里的“设计一个新物体”，而不是简单拼贴或概念叠加。

从方法论上看，这篇工作真正漂亮的地方在于：它把“融合”拆成了信息保留、结构统一、双边平衡三个子问题，并分别给出了对应的机制。这样的拆分让问题变得更清楚，也让方法更容易解释、分析和改进。

如果要用一句话讲这一研究工作：VMDiff 让跨物体生成从“把 A 和 B 放进同一张图”，走向“从 A 和 B 中创造一个新的 C”。

END

✦

2026中国AI智能体大会

✦

智猩猩主办的2026中国AI智能体大会7月2-3日杭州举行，大会设有开幕式，企业级AI智能体、AI智能体产品创新2场论坛，以及Coding Agent、自进化智能体、深度研究智能体、Computer-Use Agent、多智能体协同、Agent Skills、Agent Harness7场技术研讨会。天津大学郝建业教授，复旦肖仰华教授，阿里巴巴通义实验室算法专家李晨亮，腾讯Frontier团队专家研究员王琰，美团通用Agent团队负责人顾奇将出席演讲。

ICLR 2026收录！南理工联合提出视觉混合扩散模型VMDiff，让跨物体融合告别拼贴走向创造图33

✦

入群申请

✦

ICLR 2026收录！南理工联合提出视觉混合扩散模型VMDiff，让跨物体融合告别拼贴走向创造图34

点击下方名片即刻关注我们