如您有工作需要分享,欢迎联系:aigc_to_future
作者:Zechuan Zhang等
解读:AI生成未来
在五一假期期间,Hugging Face上出现了一款爆火的图像编辑模型,号称用一个LoRA就可以实现像GPT-4o一样的图像编辑功能。该项目不仅冲上了Hugging Face周榜第二名,仅次于Qwen3;还在外网社交媒体上火出圈,用户纷纷秀出使用体验~,之前AI生成未来也和大家分享过:



而就在最近,该工作已被NeurIPS 2025正式接收!这个模型就是由浙大和哈佛团队提出的一种新型图像编辑方法ICEdit,仅需要以往模型0.1%的训练数据(50k)以及1%的训练参数量(200M),就实现了多种类型高质量图像编辑结果。

论文地址:https://arxiv.org/pdf/2504.20690
项目主页:https://river-zhang.github.io/ICEdit-gh-pages/
代码仓库:https://github.com/River-Zhang/ICEdit
Hugging Face演示:https://huggingface.co/spaces/RiverZ/ICEdit
此外,将该方法与GPT4o等一众商业大模型做对比,尽管在语义理解、编辑多样性上相比还有差距,但该模型展现出了极强的人物ID保持、非编辑区域保持以及指令遵循能力,甚至一定程度上超越GPT4o、Gemini等商业大模型。此外,该模型与商用模型相比更开源、低成本、速度也更快(8~10s即可完成一张图片的编辑),不可谓不强大。
目前该工作在Github上已收获近2k star,Hugging face demo的访问次数也有近50万次。


那么该团队是如何做到用如此少的训练数据和训练参数实现高质量图像编辑的呢,让我们来详细解读。
利用DiT自身生成能力是降本增效的关键
基于文本指令的图像编辑任务一直都是图像生成、编辑领域的一大热点,从Prompt2prompt到InstructPix2Pix,从EmuEdit再到最新的GPT4o,都在不断的拔高AI图像编辑的水平。
总的来说,这些模型可以归为两大类:一种是免训练(training-free)图像编辑,一种是基于训练或微调的图像编辑。免训练图像编辑多通过对一个预训练文生图diffusion大模型进行提示词替换、操纵注意力图、图像反演等操作实现,尽管省去了训练的耗费,但其操作过程往往较为复杂且编辑效果不稳定、编辑任务种类单一。
而与之对应的基于训练的方法,则需要通过大量的图像编辑数据来训练,所需数据量从几十万(InstructPix2Pix 300k)到上亿不等(Step1X 20M),同时对diffusion模型的全量微调也要消耗大量资源!

图注:该图展示ICEdit使用数据量以及编辑性能与其他SOTA模型对比;ICEdit仅用50k数据训练就达到了和10M训练的EmuEdit类似的性能。
之所以需要对文生图扩散模型进行大量数据的训练,其主要原因在于预训练的文生图模型只能理解生成式的图像描述,而对于编辑指令,如“让这个女人戴上墨镜”、“让这张图变成吉卜力风格”这类话语无法理解,因此需要大量的编辑式指令和图像对的微调、训练。
因此,文章作者认为让图像编辑降本增效的核心要素就是充分利用文生图模型自身的理解、生成能力,让其理解编辑指令并直接用于图像编辑。
随着Diffusion Transformer(DiT)文生图模型(如SD3,FLUX.1 dev等)在可扩展性和长文本语义理解上展现出的极强性能以及生成结果的极高质量,越来越多的工作选择DiT模型作为基座来完成各种图像生成任务。本文也同样基于DiT多模态大模型来探索其图像编辑能力。
作者探索了一种类似双联图形式的编辑框架(称之为上下文编辑框架),我们可以把编辑模型想象成一个AI画家,而他需要根据一张放在左边的参考图,在右侧空白区域中照猫画虎绘制非编辑区域(如示意图中的山脉、天空),同时根据指令把需要编辑的区域也绘制完成(升起的太阳)。这种架构所带来的优势是,参考图和待编辑图处于同一个上下文中,即他们的token是拼接的。对于待编辑图像来说,它对参考图的注意力更强,非编辑区域保持更强;此外这种架构无需改变模型原有结构,不需要额外增加模块编码参考图像,只需将两个图像拼接起来即可(等价于token维度进行拼接)。
两种免训练的基于上下文理解的图像编辑框架
基于上述的编辑框架灵感,作者首先在DiT模型(FLUX)上进行了一些免训练的尝试,例如模型能否直接理解编辑指令?
作者使用Flux.1 Fill局部重绘模型进行了实验,输入为左边放置原图,并将右边区域全部设置为重绘区域(即一个固定的mask,无需用户手动输入),让模型根据编辑prompt进行重绘, 以模仿上述AI画家的编辑框架。作者尝试了三种类型的Prompt输入给模型,发现效果各不相同。首先是直接把编辑指令输入DiT大模型,让他生成右侧图像,发现此时模型很容易进行阔图操作而非图像编辑;而采用一种称为In-Context prompt时效果却更好一些,即在编辑指令上加前缀“绘制一幅双联图,右边图像与左边相近但{编辑指令}”,这样把编辑指令转换为生成式的prompt后,编辑准确率能增长大概10%(见后文实验)。此外作者还尝试了以往training-free方法常用的,采用描述性input和output全局文本作为输入,虽然这种方式编辑成功率更高,但是需要更复杂的对整幅图像的描述语句而非简单的编辑指令,这对用户使用也非常不友好。
因此作者采用In-Context Edit prompt作为模型的指令输入形式。同时作者基于文生图DiT和Inpainting DiT尝试了两种免训练的架构来让DiT模型能够既接收参考图,又根据上下文编辑指令完成图像编辑:
图注:两种免训练指令编辑框架
第一种框架是基于文生图DiT模型,该框架流程略微繁琐一些,简单来说就是将待编辑图像先进行图像反演(inversion),并保留反演过程中模型内部的图像特征,用于后续注入(与RF-Solver-Edit类似)。而完成图像反演后获得的噪声图像,会与一个相同尺寸的随机初始化噪声拼接,形式一个噪声双联图,用于图像去噪。去噪的过程中接收的提示词便是融入了编辑指令的上下文提示词,如“一张双联画,包含两张并排的同一个男人的图像……同一个男人,但 {让这个男人抱着篮球}”,同时在去噪的过程中不断向双联图左侧的噪声图注入原始图像反演的特征,右侧噪声则不做操作。这样最后生成的结果图的左侧将进行原始图像的重建,而右侧则会生成根据上下文提示词发生编辑后的结果,即这个男人抱着篮球。
另一个免训练框架则是基于Inpainting DiT(图像补全,如FLUX.1 Fill),该框架则十分简洁,只需要将待编辑图像(source image)放置在双联图左侧,右侧则全部设置为inpainting区域即可,输入的提示词依然是融入了编辑指令的上下文提示词,可以看到输出了编辑后的图像。
总的来说两种框架的目的都是为了让模型能接收参考图像同时基于上下文指令进行编辑,虽然其展现出了出色的编辑效果,但是他们在细节方面会有各种瑕疵(如非编辑区域保持不够好、指令遵循度不高),成片率依然不高。
混合专家LoRA微调与test-time scaling大幅提升性能
虽然免训练的方法性能依旧有限且成片率不高,但它可以通过后续的微调来提升性能。作者基于inpainting框架的简洁性,在其基础上使用了来自互联网上的公共编辑数据集(MagicBrush 9k+OmniEdit 40k)进行了LoRA微调,微调策略很简单,只需要将数据集中的编辑指令改为统一的上下文形式指令,即“一张双联画,包含两张并排的同一个场景的图像,右边的场景与左边相同,但 + { 编辑指令 }“。作者发现微调过后模型编辑的成功率大大提高,并且能泛化到许多数据集之外的图像类型编辑上。
然而作者发现仅仅使用普通的lora在不同的编辑任务上成功率依然不够高,并且有些任务如Remove、style等编辑效果较差。作者认为这是由于不同的编辑任务需要不同的特征处理模式,而仅靠一个LoRA难以学习所有编辑类型的处理方法,因此采用多LoRA专家的混合训练或许是提高编辑效果的关键。于是作者借鉴了LLM领域发挥重要作用的MoE(混合专家模型)方法,将其用在DiT多模态大模型中,并将LoRA设置为不同的专家进行训练,得到了最终的模型。尽管采用了MoE+LoRA的形式,模型的训练参数依然远远少于SOTA模型(0.2B vs 17B)。
表1:模型参数量和性能对比
表2:训练数据量和性能对比
表3 使用LoRA微调后相比training free性能显著提升,采用MoE架构后性能继续上升
训练端结束,那么推理时模型的性能还有提升的空间吗?作者发现不同的随机初始化噪声会产生不同的编辑结果,而这些结果有的好有的坏,如何让模型自动且快速的生成最佳的结果交给用户呢?
图注:不同初始噪声编辑效果不一,采用inference time scaling策略筛选更好的结果
为了解决这个问题,作者提出适用于图像编辑任务的早筛推理时拓展策略(Early filter inference time scaling)。简单来说,当前最常用的FLUX、SD3等DiT架构文生图模型多采用流匹配等技术训练,这使得其能够通过极少的推理步数就能快速生成高质量结果(走直线),许多工作也探索了One-step图像生成的DiT模型。因此,作者想到利用最初的几个step来判断当前初始噪声生成的效果是否满足编辑要求,如果不满足则直接略过考虑下一个候选。
图注:Early filter inference time scaling
如图所示,案例要求将天空变成黑夜的样子,有的噪声候选在前4步时是天亮的样子,进行完整的50步推理依然是天亮的样子,不满足编辑的要求,因此可以用VLM作为判官在前几步就把这个不符合的候选去除,节省推理的步数耗费。此外,VLM还可以优中取优,即使都完成了天空变成夜晚的操作,但是一个编辑后还有星星在空中闪烁,更符合夜晚的氛围,VLM也能将它认为是更好的结果留下。

图注:VIE-Score测评显示采用inference time scaling策略带来了极大的效果提升
作者测试了采用inference-time scaling策略与直接随机生成的效果,使用基于GPT4o的VIE-score进行测评,更符合人类偏好。可以看到采用该策略后,VIE-score大幅提升,甚至媲美字节豆包图像编辑模型SeedEdit(4月份版本)。
除了定量测评外,ICEdit与其他模型定性对比也展示了其更佳的编辑效果,无论是指令遵循、背景保持还是人物ID保持上。

外,由于作者提出的方法是通过外接MoE-LoRA模块实现,并未改变DiT模型原有的生成能力,因此具有很强的泛化性并且能够借助DiT自身能力产生更加和谐自然的编辑效果,如自动添加阴影、反光、字体风格等等。
图注:借助DiT自身生成能力能产生更加和谐的编辑效果
此外,该框架也可以看作是一种新的image-to-image框架,经过特殊数据训练还可用于一些low level任务。作者尝试了未经额外训练模型就可以泛化到一些特殊任务上,如图像光照改变、水印去除、修复等等。
图注:该框架可以看作是一个通用的image-to-image框架,完成多种下游任务
该模型也可在ComfyUI工作流中运行,接入图像分辨率优化、Redux等模块,实现图像编辑、参考图像融合等新玩法。

参考文献
[1] Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer
致谢
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
