智猩猩Pro整理
XZR投稿
过去几年,图像生成模型已经非常擅长“听懂提示词”和“画出好看的图”。如果我们输入“一个玻璃罐”和“一只猫头鹰”,很多模型都能生成一张同时包含这两个元素的图片。但如果进一步要求模型把它们真正融合成一个新物体,例如“一个像玻璃罐一样透明、又具有猫头鹰头部和羽毛结构的新实体”,事情就会明显变难。
南京理工大学&南京大学研究团队联合提出的用于跨物体合成的视觉混合扩散模型 VMDiff 正是要解决上述问题。VMDiff 关注的不是普通的多概念生成,也不是简单的图像编辑,而是一个更细、更接近真实创作需求的问题:跨物体视觉融合。给定两个输入物体图像,模型需要生成一个新的单一实体,这个实体既保留两边的视觉特征,又不能像拼贴,也不能明显偏向其中一边。
这类能力对角色设计、潮玩设计、工业外观探索、电影动画概念设计都很有价值。真正的创作通常不是把 A 和 B 贴到同一张画面里,而是从 A 和 B 中抽取形态、材质、语义和风格,设计出一个新的 C。相关成果论文已被 ICLR 2026 收录。

图 1 VMDiff 的目标不是让两个物体共同出现,而是让它们融合成一个结构连贯、语义平衡、视觉统一的新实体。

论文标题:
VMDiff: Visual Mixing Diffusion for Limitless Cross-Object Synthesis
论文链接:
https://arxiv.org/abs/2509.23605
项目主页:
https://xzr52.github.io/VMDiff_index/
代码仓库:
https://github.com/xzr52/VMDiff_code
01
核心难点

图 2 跨物体融合里常见的两类失败:共存但不融合,或者只偏向其中一边。
VMDiff 讨论的核心难点可以概括为两个:
第一类失败是 coexistent generation:共存但不融合。模型确实画出了两个概念,但它们只是靠近、重叠、拼接,仍然像两个彼此分离的对象。例如让模型融合“玻璃罐”和“猫头鹰”,结果可能只是猫头鹰站在玻璃罐旁边,或者猫头鹰被塞进一个罐子里。这种结果看起来包含了两个输入,但没有形成一个新的统一结构。
第二类失败是 bias generation:生成结果偏向一边。模型可能只保留更强势、更容易生成的概念,另一个输入几乎消失。例如“口红”和“钢铁侠手办”融合时,模型可能只生成一支红色口红,或者只生成一个机械人偶,无法同时保留两边的关键特征。
这两个问题说明,跨物体融合并不只是“多放几个概念”这么简单。它同时要求模型做到三件事:
两个输入的信息都要保留下来。
这些信息要长成一个单一实体。
两边贡献要平衡,不能被某一边吞掉。
VMDiff 的重要性就在于,它没有把这三件事混在一起处理,而是把它们拆成了更清晰的阶段,并为每一阶段设计了对应机制。
02
解决方法

图 3 VMDiff 由 Hybrid Sampling Process 和 Efficient Adaptive Adjustment 组成。前者负责融合生成,后者负责自动搜索更平衡的参数。
VMDiff 的整体框架可以看成两大模块:Hybrid Sampling Process (HSP) 负责生成过程本身,Efficient Adaptive Adjustment (EAA) 负责自动调参。
1 Hybrid Sampling Process (HSP)
HSP 把扩散采样过程拆成两个阶段:前面用 Blending Noise (BNoise) 构造一个包含双边信息的语义噪声,后面用 Mixing Denoising (MDeNoise) 将这些信息逐步生成成一个统一实体。整个 HSP 过程简写成一个函数:

其中,
在研究中需要自适应搜索的参数是:
也就是说,VMDiff 的自动搜索不是漫无目的地调所有东西,而是在一个很小但很关键的参数空间里找最优融合点。
该工作的一个关键理解是:跨物体融合不是一个单阶段问题。如果一开始就追求“混合”,容易把细节抹掉;如果一直只保留信息,又容易让两个概念并列存在。VMDiff 的做法是先把信息尽量装进生成过程里,再让它们在后续去噪中形成一个整体。
第一步:BNoise 阶段先解决“信息别丢”

图 4. 在 BNoise 阶段,拼接比插值更有利于保留两个输入的细节。
很多人一听到“融合”,第一反应是插值。比如把两个特征向量按比例平均,得到一个中间状态。但 VMDiff 在前期没有这样做,而是选择了 concatenate(拼接)。
这个选择看起来有些反直觉,但其实很关键。BNoise 阶段的任务不是马上生成最终图像,而是构造一个带有两边语义信息的噪声起点。此时最怕的不是“不够统一”,而是“信息提前丢失”。
两个不同物体的特征往往并不对齐。一个物体的关键特征可能是轮廓,一个可能是材质;一个可能是局部形状,一个可能是颜色和纹理。如果在这个阶段直接插值,很多不对齐的细节会在平均过程中被冲淡。比如猫头鹰的眼睛、羽毛纹理、玻璃罐的透明材质和边缘结构,这些信息可能在过早混合时互相抵消。
BNoise 公式可以写成两步。先从初始高斯噪声

然后再从中间时刻反演回噪声端,得到被输入信息“改造过”的语义噪声

其中,

这条公式直接说明了为什么 BNoise 是“拼接”而不是“插值”:它不是先把两个 embedding 压成一个平均向量,而是把加权后的两边视觉信息一起作为条件送进去。
BNoise 的意义可以理解为:它不是最终融合,而是融合前的信息注入。
这个阶段解决的是“两个概念是否都在场”的问题。只有先保证两个输入都没有被模型忽略,后面才有可能谈真正的融合。
第二步:MDeNoise 阶段再解决“长成一个整体”

图 5 在最终生成阶段,插值比继续拼接更容易形成单一、连贯的新实体。
前面的拼接解决了信息保留问题,但只做到这一步还不够。因为“两个概念都在”并不等于“两个概念已经融合”。
如果在最终去噪阶段仍然持续拼接,模型很可能继续把两边当成两个独立来源,最后生成“两个东西挤在一起”的结果。也就是说,拼接适合保留信息,但不一定适合形成统一结构。
因此,在 MDeNoise 阶段,VMDiff 切换到 spherical interpolation(球面插值)。相比普通线性插值,球面插值更适合在高维潜空间里沿着较自然的路径过渡,能够减少特征强度被简单平均削弱的问题。
MDeNoise 从 BNoise 得到的

这里

这里的
这一阶段的目标已经变了:前面是“别丢信息”,现在是“把信息组织成一个整体”。
也正因为目标变了,操作也必须变。VMDiff 不是全程使用同一种混合策略,而是根据扩散生成的阶段差异采用不同策略:

2 Similarity Score:既要像两边,也要不偏一边
有了 HSP,模型已经能更好地生成融合体。但仍然存在一个问题:即使两个输入都被带入了生成过程,最终结果仍可能偏向其中一个输入。
为了解决这个问题,VMDiff 设计了一个 Similarity Score (SS)。这个分数的作用不是简单评估图片好不好看,而是评估生成结果是否满足跨物体融合的核心要求。公式为:

其中,
相似度奖励。
让结果在视觉上同时接近两张输入图像; 让结果在语义上同时符合两个类别标签。 平衡性惩罚。
惩罚视觉上的不平衡, 惩罚语义上的不平衡。如果结果非常像一边、几乎不像另一边,即使总相似度不低,也会被扣分。
这个设计很有意思,因为它把“融合”这件事定义得更明确了。好的融合结果不是单纯追求高相似度,而是要在双边相似度之间保持平衡。
换句话说,VMDiff 优化的目标不是生成一张最像某个输入的图。而是生成一张同时保留两边视觉和语义,并且两边贡献尽量均衡的图。这正好对应跨物体融合的真实需求。
3 Efficient Adaptive Adjustment (EAA)

图 6 EAA 通过分层搜索逐步提升相似度并减小不平衡。
手动调参是生成任务里很常见的问题。不同物体组合的难度不一样,有的组合需要更偏向形状,有的需要更保留材质,有的则需要更强的语义约束。如果每一组输入都靠人工试参数,方法就很难真正实用。
VMDiff 因此提出 Efficient Adaptive Adjustment (EAA)。它根据 Similarity Score 自动搜索参数,而不是让用户凭感觉调整。EAA 主要调节三类变量:

EAA 的总目标可以先写成一句最核心的优化式:

研究团队将其拆成一个轻量的分层搜索过程。这样做的好处是,不需要对整个生成模型做昂贵训练,也不需要复杂的梯度优化,就能在采样阶段找到更合适的融合点。
第一步:初始化噪声和参数
采样初始高斯噪声,并初始化参数:

这相当于先给模型一个中性的起点:融合比例从 0.5 开始,两边 BNoise 注入强度都设为 1。
第二步:搜索
在固定

这一步主要处理 MDeNoise 阶段的融合比例。简单说,就是先问:如果前期噪声强度不变,最终应该更偏向哪一边,才能让结果最像一个平衡的新物体?
第三步:搜索
如果当前结果还没有达到接受阈值

如果

否则就固定

这一步的逻辑很直观:
第四步:接受准则与重采样
研究最多重采样

如果还没有超过阈值,但已经达到最大循环次数

否则重新采样噪声,进入下一轮:

这就是 EAA 的自动搜索公式。它不是在像训练神经网络那样反向传播,而是在一个低维参数空间里做“先找
此外,
从图 6 可以看到,搜索过程并不是单纯让相似度越来越高,而是同时关注平衡性。某些中间结果可能看起来不错,但如果偏向其中一边,Similarity Score 仍然不会给出最高评价。
这让 EAA 不只是“自动调好看”,而是围绕 VMDiff 对融合的定义来调:既像两边,也不偏一边。
03
实验验证
为了系统评估跨物体融合,论文构建了 IIOF (Image-Image Object Fusion) 数据集,包含 780 个图像对,覆盖动物、水果、人造物体、角色手办等类别。
实验中,VMDiff 与多概念生成、个性化生成、图像混合和图像编辑方法进行了比较。核心观察是:很多基线方法可以生成视觉上不错的图片,但常常无法同时满足“单实体、双边保留、语义平衡”这三个要求。
表 1 IIOF 数据集上的定量对比结果

从指标上看,VMDiff 在多项指标上表现最好,尤其是 Similarity Score 和 Bsim。这里可以这样理解:
SS 高说明生成结果同时保留了双边视觉和语义信息,并且平衡性较好。
Bsim 低说明结果没有严重偏向其中一边,双边贡献更均衡。
定性结果也支持这一点。

图 7 与多概念生成方法相比,VMDiff 更能生成统一而平衡的融合体。

图 8. 与混合和编辑方法相比,VMDiff 的结果更完整、更自然。
这些对比图里最值得看的不是哪张更“炫”,而是哪张更像一个真实存在的新物体。VMDiff 的优势通常体现在结构连贯性上:它不只是把一个物体的纹理贴到另一个物体上,也不是简单把两个轮廓叠在一起,而是尝试重新组织形态、材质和局部部件之间的关系。
04
重要贡献
如果只把 VMDiff 理解成一个“生成效果更好的方法”,其实会低估它的意义。它更重要的贡献是给跨物体融合提出了一套清晰的方法论。
第一,VMDiff 把跨物体融合的问题定义得更明确。研究强调真正的融合要生成单一实体,而不是两个实体共存。这让任务边界比普通多概念生成更清楚。
第二,VMDiff 把生成过程拆成了两个目标不同的阶段。BNoise 负责保留信息,MDeNoise 负责形成整体。这个拆分解释了为什么同一种混合操作无法适用于整个过程。
第三,VMDiff 用 Similarity Score 显式建模平衡性。很多方法只关注结果是否包含目标概念,但 VMDiff 进一步关注两边是否平衡。这对跨物体融合尤其重要。
第四,VMDiff 用 EAA 降低了手动调参成本。面对不同输入组合,EAA 能自动搜索更合理的融合点,使方法更接近可用的创作工具。
这四点合在一起,使 VMDiff 不只是一个技巧集合,而是一个围绕“视觉融合”任务设计的完整框架。
我的理解:VMDiff 的核心不是混合,而是分工。该研究最值得学习的地方,是它没有把所有问题都压到一个“融合操作”里。
很多方法遇到跨物体生成,会尝试设计更复杂的插值、更强的 prompt、更重的注意力控制。但 VMDiff 的思路更像是在问:现在这个阶段,到底最需要解决什么问题?
在噪声构造阶段,最重要的是保留信息,所以它用拼接。
在最终去噪阶段,最重要的是形成整体,所以它用插值。
在参数选择阶段,最重要的是避免偏置,所以它用 Similarity Score 和 EAA。
这种“按阶段分工”的思想很有启发性。它说明跨物体融合的失败往往不是模型完全不会画,而是不同目标之间发生了冲突:保信息和成整体会冲突,相似度和平衡性会冲突,创意性和可识别性也会冲突。VMDiff 的设计价值就在于,它把这些冲突拆开处理。
所以它最终想实现的不是: 把 A 和 B 放在一起。而是:从 A 和 B 的视觉与语义中,生成一个新的、可信的 C。
05
适用场景与局限
VMDiff 适合那些需要探索新物体形态的场景,例如:

当然,它也不是没有局限。跨物体融合本身是一个高度开放的问题,有些输入组合天然很难融合,例如结构差异极大、语义冲突强、尺度差别明显的物体。Similarity Score 能帮助筛选更平衡的结果,但它仍然依赖视觉-语言模型的判断能力。也就是说,评估模型如果误判,搜索过程也可能被带偏。
另外,VMDiff 更偏向采样阶段的控制方法,而不是重新训练一个专门模型。这让它更轻量,但也意味着它的上限仍然受底层扩散模型能力影响。
06
总结
VMDiff 解决的是跨物体视觉融合中的核心问题:如何让两个输入物体不只是共同出现,而是真正融合成一个新的单一实体。
它的关键思想可以概括为三句话:
在 BNoise 阶段,用拼接尽可能保留两边信息:

在 MDeNoise 阶段,用球面插值让两边特征形成统一整体:

用 Similarity Score 和 EAA 自动寻找既相似又平衡的融合参数:

这让 VMDiff 的生成结果更接近真实创作里的“设计一个新物体”,而不是简单拼贴或概念叠加。
从方法论上看,这篇工作真正漂亮的地方在于:它把“融合”拆成了信息保留、结构统一、双边平衡三个子问题,并分别给出了对应的机制。这样的拆分让问题变得更清楚,也让方法更容易解释、分析和改进。
如果要用一句话讲这一研究工作:VMDiff 让跨物体生成从“把 A 和 B 放进同一张图”,走向“从 A 和 B 中创造一个新的 C”。
END
✦
✦
2026中国AI智能体大会
✦

✦
✦
入群申请
✦

点击下方名片 即刻关注我们