ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造

智猩猩 2026-06-09 17:44

智猩猩Pro整理

XZR投稿



过去几年,图像生成模型已经非常擅长“听懂提示词”和“画出好看的图”。如果我们输入“一个玻璃罐”和“一只猫头鹰”,很多模型都能生成一张同时包含这两个元素的图片。但如果进一步要求模型把它们真正融合成一个新物体,例如“一个像玻璃罐一样透明、又具有猫头鹰头部和羽毛结构的新实体”,事情就会明显变难。


南京理工大学&南京大学研究团队联合提出的用于跨物体合成的视觉混合扩散模型 VMDiff 正是要解决上述问题。VMDiff 关注的不是普通的多概念生成,也不是简单的图像编辑,而是一个更细、更接近真实创作需求的问题:跨物体视觉融合。给定两个输入物体图像,模型需要生成一个新的单一实体,这个实体既保留两边的视觉特征,又不能像拼贴,也不能明显偏向其中一边。


这类能力对角色设计、潮玩设计、工业外观探索、电影动画概念设计都很有价值。真正的创作通常不是把 A 和 B 贴到同一张画面里,而是从 A 和 B 中抽取形态、材质、语义和风格,设计出一个新的 C相关成果论文已被 ICLR 2026 收录。



ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造图1

图 1 VMDiff 的目标不是让两个物体共同出现,而是让它们融合成一个结构连贯、语义平衡、视觉统一的新实体。


ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造图2



01

核心难点


ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造图3

图 2 跨物体融合里常见的两类失败:共存但不融合,或者只偏向其中一边。


VMDiff 讨论的核心难点可以概括为两个:




这两个问题说明,跨物体融合并不只是“多放几个概念”这么简单。它同时要求模型做到三件事:



VMDiff 的重要性就在于,它没有把这三件事混在一起处理,而是把它们拆成了更清晰的阶段,并为每一阶段设计了对应机制。


02

解决方法


ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造图4

图 3 VMDiff 由 Hybrid Sampling Process 和 Efficient Adaptive Adjustment 组成。前者负责融合生成,后者负责自动搜索更平衡的参数。


VMDiff 的整体框架可以看成两大模块:Hybrid Sampling Process (HSP) 负责生成过程本身,Efficient Adaptive Adjustment (EAA) 负责自动调参。


1 Hybrid Sampling Process (HSP)

 

HSP 把扩散采样过程拆成两个阶段:前面用 Blending Noise (BNoise) 构造一个包含双边信息的语义噪声,后面用 Mixing Denoising (MDeNoise) 将这些信息逐步生成成一个统一实体。整个 HSP 过程简写成一个函数:


ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造图5


其中,  表示输入数据,包括两张输入图像  、类别文本  和生成 prompt;  是在参数  下得到的融合图像。


在研究中需要自适应搜索的参数是:  ;固定默认参数是:  。


  主要控制后期融合比例,  控制前期两个输入在噪声构造中的影响,  是初始随机噪声。


也就是说,VMDiff 的自动搜索不是漫无目的地调所有东西,而是在一个很小但很关键的参数空间里找最优融合点


该工作的一个关键理解是:跨物体融合不是一个单阶段问题。如果一开始就追求“混合”,容易把细节抹掉;如果一直只保留信息,又容易让两个概念并列存在。VMDiff 的做法是先把信息尽量装进生成过程里,再让它们在后续去噪中形成一个整体。


第一步:BNoise 阶段先解决“信息别丢”


ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造图6

图 4. 在 BNoise 阶段,拼接比插值更有利于保留两个输入的细节。


很多人一听到“融合”,第一反应是插值。比如把两个特征向量按比例平均,得到一个中间状态。但 VMDiff 在前期没有这样做,而是选择了 concatenate(拼接


这个选择看起来有些反直觉,但其实很关键。BNoise 阶段的任务不是马上生成最终图像,而是构造一个带有两边语义信息的噪声起点。此时最怕的不是“不够统一”,而是“信息提前丢失”。


两个不同物体的特征往往并不对齐。一个物体的关键特征可能是轮廓,一个可能是材质;一个可能是局部形状,一个可能是颜色和纹理。如果在这个阶段直接插值,很多不对齐的细节会在平均过程中被冲淡。比如猫头鹰的眼睛、羽毛纹理、玻璃罐的透明材质和边缘结构,这些信息可能在过早混合时互相抵消。


BNoise 公式可以写成两步。先从初始高斯噪声  出发,带着双边视觉条件和文本条件去噪到中间时刻  


ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造图7


然后再从中间时刻反演回噪声端,得到被输入信息“改造过”的语义噪声  


ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造图8


其中,  、  是两张输入图像的视觉 embedding,  是生成 prompt 的文本 embedding,  是扩散模型的噪声预测网络,  是采样器中的噪声尺度。这里最关键的是  :


ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造图9


这条公式直接说明了为什么 BNoise 是“拼接”而不是“插值”:它不是先把两个 embedding 压成一个平均向量,而是把加权后的两边视觉信息一起作为条件送进去。  和  就是在控制两边信息注入强度。


BNoise 的意义可以理解为:它不是最终融合,而是融合前的信息注入。


这个阶段解决的是“两个概念是否都在场”的问题。只有先保证两个输入都没有被模型忽略,后面才有可能谈真正的融合。


第二步:MDeNoise 阶段再解决“长成一个整体”


ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造图10

图 5 在最终生成阶段,插值比继续拼接更容易形成单一、连贯的新实体。


前面的拼接解决了信息保留问题,但只做到这一步还不够。因为“两个概念都在”并不等于“两个概念已经融合”。


如果在最终去噪阶段仍然持续拼接,模型很可能继续把两边当成两个独立来源,最后生成“两个东西挤在一起”的结果。也就是说,拼接适合保留信息,但不一定适合形成统一结构。


因此,在 MDeNoise 阶段,VMDiff 切换到 spherical interpolation(球面插值。相比普通线性插值,球面插值更适合在高维潜空间里沿着较自然的路径过渡,能够减少特征强度被简单平均削弱的问题。


MDeNoise 从 BNoise 得到的  出发,一路去噪到最终图像:


ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造图11

 

这里  是解码器,负责把最终 latent  解码成图像。和 BNoise 不同,MDeNoise 不再使用拼接条件,而是使用球面插值得到的单一视觉表示:


ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造图12


这里的  就是最终融合比例。直观上,  越偏向一侧,生成结果越容易继承对应输入的结构和语义;但因为它通过球面路径过渡,模型更容易得到一个连续、统一的混合表示。


这一阶段的目标已经变了:前面是“别丢信息”,现在是“把信息组织成一个整体”。


也正因为目标变了,操作也必须变。VMDiff 不是全程使用同一种混合策略,而是根据扩散生成的阶段差异采用不同策略:


ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造图13


2 Similarity Score:既要像两边,也要不偏一边


有了 HSP,模型已经能更好地生成融合体。但仍然存在一个问题:即使两个输入都被带入了生成过程,最终结果仍可能偏向其中一个输入。


为了解决这个问题,VMDiff 设计了一个 Similarity Score (SS)。这个分数的作用不是简单评估图片好不好看,而是评估生成结果是否满足跨物体融合的核心要求。公式为:


ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造图14

 

其中,  表示生成图像  和输入图像  的视觉相似度,研究使用 DINO encoder 计算;  表示生成图像  和类别标签  的语义相似度,研究使用 CLIP 计算。这个公式可以拆成两组:



这个设计很有意思,因为它把“融合”这件事定义得更明确了。好的融合结果不是单纯追求高相似度,而是要在双边相似度之间保持平衡。


换句话说,VMDiff 优化的目标不是生成一张最像某个输入的图。而是生成一张同时保留两边视觉和语义,并且两边贡献尽量均衡的图。这正好对应跨物体融合的真实需求。


3 Efficient Adaptive Adjustment (EAA)

  

ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造图15

图 6 EAA 通过分层搜索逐步提升相似度并减小不平衡。


手动调参是生成任务里很常见的问题。不同物体组合的难度不一样,有的组合需要更偏向形状,有的需要更保留材质,有的则需要更强的语义约束。如果每一组输入都靠人工试参数,方法就很难真正实用。


VMDiff 因此提出 Efficient Adaptive Adjustment (EAA)。它根据 Similarity Score 自动搜索参数,而不是让用户凭感觉调整。EAA 主要调节三类变量:


ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造图16


EAA 的总目标可以先写成一句最核心的优化式:


ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造图17


研究团队将其拆成一个轻量的分层搜索过程。这样做的好处是,不需要对整个生成模型做昂贵训练,也不需要复杂的梯度优化,就能在采样阶段找到更合适的融合点。


第一步:初始化噪声和参数


采样初始高斯噪声,并初始化参数:


ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造图18


这相当于先给模型一个中性的起点:融合比例从 0.5 开始,两边 BNoise 注入强度都设为 1。


第二步:搜索  


在固定  的情况下搜索  。研究使用 golden section search,在[0,1]区间内找到最好的融合比例:


ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造图19


这一步主要处理 MDeNoise 阶段的融合比例。简单说,就是先问:如果前期噪声强度不变,最终应该更偏向哪一边,才能让结果最像一个平衡的新物体?


第三步:搜索  


如果当前结果还没有达到接受阈值  就继续调整  。论文中使用的阈值  。先定义两边各自的综合得分:


ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造图20


如果  ,说明当前结果更偏向输入 1,于是固定  ,搜索  来增强输入 2 的影响:


ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造图21


否则就固定  ,搜索  来补强输入 1:


ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造图22


这一步的逻辑很直观:  解决后期怎么融合,  则回到前期 BNoise 阶段,调整两边信息一开始注入得够不够。


第四步:接受准则与重采样  


研究最多重采样  次噪声。如果当前参数的 Similarity Score 超过阈值,就接受结果:


ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造图23


如果还没有超过阈值,但已经达到最大循环次数  ,就返回当前最好的参数:


ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造图24


否则重新采样噪声,进入下一轮:


ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造图25


这就是 EAA 的自动搜索公式。它不是在像训练神经网络那样反向传播,而是在一个低维参数空间里做“先找  ,再调  ,必要时换  ”的零阶搜索。


此外,  和  的每次参数搜索最多涉及 10 次图像生成,因此它比梯度式 latent 优化轻量得多。


从图 6 可以看到,搜索过程并不是单纯让相似度越来越高,而是同时关注平衡性。某些中间结果可能看起来不错,但如果偏向其中一边,Similarity Score 仍然不会给出最高评价。


这让 EAA 不只是“自动调好看”,而是围绕 VMDiff 对融合的定义来调:既像两边,也不偏一边。


03

实验验证


为了系统评估跨物体融合,论文构建了 IIOF (Image-Image Object Fusion) 数据集,包含 780 个图像对,覆盖动物、水果、人造物体、角色手办等类别。


实验中,VMDiff 与多概念生成、个性化生成、图像混合和图像编辑方法进行了比较。核心观察是:很多基线方法可以生成视觉上不错的图片,但常常无法同时满足“单实体、双边保留、语义平衡”这三个要求。


表 1 IIOF 数据集上的定量对比结果

ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造图26


从指标上看,VMDiff 在多项指标上表现最好,尤其是 Similarity Score 和 Bsim。这里可以这样理解:



定性结果也支持这一点。


ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造图27

图 7 与多概念生成方法相比,VMDiff 更能生成统一而平衡的融合体。


ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造图28

图 8. 与混合和编辑方法相比,VMDiff 的结果更完整、更自然。


这些对比图里最值得看的不是哪张更“炫”,而是哪张更像一个真实存在的新物体。VMDiff 的优势通常体现在结构连贯性上:它不只是把一个物体的纹理贴到另一个物体上,也不是简单把两个轮廓叠在一起,而是尝试重新组织形态、材质和局部部件之间的关系。


04

重要贡献


如果只把 VMDiff 理解成一个“生成效果更好的方法”,其实会低估它的意义。它更重要的贡献是给跨物体融合提出了一套清晰的方法论。


第一,VMDiff 把跨物体融合的问题定义得更明确。研究强调真正的融合要生成单一实体,而不是两个实体共存。这让任务边界比普通多概念生成更清楚。


第二,VMDiff 把生成过程拆成了两个目标不同的阶段。BNoise 负责保留信息,MDeNoise 负责形成整体。这个拆分解释了为什么同一种混合操作无法适用于整个过程。


第三,VMDiff 用 Similarity Score 显式建模平衡性。很多方法只关注结果是否包含目标概念,但 VMDiff 进一步关注两边是否平衡。这对跨物体融合尤其重要。


第四,VMDiff 用 EAA 降低了手动调参成本。面对不同输入组合,EAA 能自动搜索更合理的融合点,使方法更接近可用的创作工具。


这四点合在一起,使 VMDiff 不只是一个技巧集合,而是一个围绕“视觉融合”任务设计的完整框架。


我的理解:VMDiff 的核心不是混合,而是分工。该研究最值得学习的地方,是它没有把所有问题都压到一个“融合操作”里。


很多方法遇到跨物体生成,会尝试设计更复杂的插值、更强的 prompt、更重的注意力控制。但 VMDiff 的思路更像是在问:现在这个阶段,到底最需要解决什么问题?



这种“按阶段分工”的思想很有启发性。它说明跨物体融合的失败往往不是模型完全不会画,而是不同目标之间发生了冲突:保信息和成整体会冲突,相似度和平衡性会冲突,创意性和可识别性也会冲突。VMDiff 的设计价值就在于,它把这些冲突拆开处理。


所以它最终想实现的不是: 把 A 和 B 放在一起。而是:从 A 和 B 的视觉与语义中,生成一个新的、可信的 C。


05

适用场景与局限


VMDiff 适合那些需要探索新物体形态的场景,例如:


ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造图29


当然,它也不是没有局限。跨物体融合本身是一个高度开放的问题,有些输入组合天然很难融合,例如结构差异极大、语义冲突强、尺度差别明显的物体。Similarity Score 能帮助筛选更平衡的结果,但它仍然依赖视觉-语言模型的判断能力。也就是说,评估模型如果误判,搜索过程也可能被带偏。


另外,VMDiff 更偏向采样阶段的控制方法,而不是重新训练一个专门模型。这让它更轻量,但也意味着它的上限仍然受底层扩散模型能力影响。


06

总结


VMDiff 解决的是跨物体视觉融合中的核心问题:如何让两个输入物体不只是共同出现,而是真正融合成一个新的单一实体。


它的关键思想可以概括为三句话:



ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造图30



ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造图31



ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造图32


这让 VMDiff 的生成结果更接近真实创作里的“设计一个新物体”,而不是简单拼贴或概念叠加。


从方法论上看,这篇工作真正漂亮的地方在于:它把“融合”拆成了信息保留、结构统一、双边平衡三个子问题,并分别给出了对应的机制。这样的拆分让问题变得更清楚,也让方法更容易解释、分析和改进。


如果要用一句话讲这一研究工作:VMDiff 让跨物体生成从“把 A 和 B 放进同一张图”,走向“从 A 和 B 中创造一个新的 C”。

END

2026中国AI智能体大会

智猩猩主办的2026中国AI智能体大会7月2-3日杭州举行,大会设有开幕式,企业级AI智能体、AI智能体产品创新2场论坛,以及Coding Agent、自进化智能体、深度研究智能体、Computer-Use Agent、多智能体协同、Agent Skills、Agent Harness7场技术研讨会天津大学郝建业教授,复旦肖仰华教授,阿里巴巴通义实验室算法专家李晨亮,腾讯Frontier团队专家研究员王琰,美团通用Agent团队负责人顾奇将出席演讲。
ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造图33

入群申请

ICLR 2026收录!南理工联合提出视觉混合扩散模型VMDiff,让跨物体融合告别拼贴走向创造图34

点击下方名片 即刻关注我们

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IC
more
FPGA标准库-Open Logic
Agentic AI 时代,CPU比GPU更重要?
ICRA 顶会赛事过后,“一天跑通”成为人形机器人开发的新基准?
180亿元,IC设计大厂公布新计划
Anthropic称AI模型可能脱离人类控制,医保个人账户跨省共济来了,滴滴推出甄选快车,赛豆科技将专注AI汽车,这就是今天的其他大新闻!
ICML 2026 | PhysForge框架来了,让3D资产从静态模型变成可交互对象
连续两年进入 ICRA 最佳论文视野,RoboScience 机器科学的“具身大脑”押对了
Anthropic 80%代码AI自已写,人类刹车来得及么?
人类药丸?Anthropic为什么要搞AI不扩散条约?
Anthropic最新博客:生物学Agent的瓶颈不在模型,而在数据基础设施
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号