让AI作画自己纠错!随机丢模块就能提升生成质量,告别塑料感废片

量子位 2025-08-23 13:02
梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

AI作画、生视频,可以「自己救自己」了?!

当大家还在为CFG(无分类器引导)的参数搞到头秃,却依然得到一堆“塑料感”废片而发愁时,来自清华大学、阿里巴巴AMAP(高德地图)、中国科学院自动化研究所的研究团队,推出全新方法S²-Guidance (Stochastic Self-Guidance)。

资讯配图

核心亮点在于通过随机丢弃网络模块(Stochastic Block-Dropping)来动态构建“弱”的子网络,从而实现对生成过程的自我修正。这不仅让AI学会了“主动避坑”,更重要的是,它避免了其他类似方法中繁琐、针对特定模型的参数调整过程,真正做到了即插即用、效果显著。

S²-Guidance方法在文生图和文生视频任务中,显著提升了生成结果的质量与连贯性。

具体表现在:

一、CFG的瓶颈:效果失真 + 缺乏通用性

在扩散模型的世界里,CFG (Classifier-Free Guidance)是提升生成质量和文本对齐度的标准操作。但它的“线性外推”本质,导致高引导强度下容易产生过饱和、失真等问题。

为了解决这个问题,学术界此前的思路是引入一个“监督员”——弱模型(weak model)。比如Autoguidance就提出用训练不充分的模型来修正。但这个思路在实践中遇到了核心难题:如何找到一个“恰到好处”的弱模型?

为了绕开这个难题,后续的一些工作尝试“凭空制造”弱模型。它们通过在推理时手动修改网络结构来实现,比如模糊化特定的注意力图(Attention Map),或者在视频生成中跳过某些时空注意力层。但这些方法又带来了新的问题:它们通常是高度定制化的,需要针对不同任务进行精细的参数调整和大量的实验,缺乏通用性,使用起来非常繁琐

S²-Guidance则另辟蹊径,它问了一个直击灵魂的问题:我们能不能不找外援,也不搞复杂的调参,让模型自己监督自己,并且这个过程是通用且自动的?

二、S²-Guidance的精妙构思:“随机丢模块”就够了

S²-Guidance 在生成质量流形上的工作机制如下图所示。

生成过程从当前状态(Mₜ,橙色线框)向下一个状态(Mₜ₋₁)演进。标准CFG提供了一个强力但不够精准的引导方向(灰色箭头),它无法精确地命中代表最高质量的“山峰”(黄色峰值)。S²-Guidance的改进之处在于:它通过随机丢弃网络模块的策略,计算出一个“自我修正”的预测(蓝色箭头,“随机丢弃后的预测”)。最终,合成的S²-Guidance引导向量(紫色箭头)能更精准地将生成过程引向流形上的最优区域,最终得到保真度更高的结果。

资讯配图

第一步:通过随机模块丢弃,动态构建内生子网络

高性能扩散模型(如SD3)的核心架构多为Transformer,由一系列功能相似的Block堆叠而成。研究表明,这类大型网络存在显著的模型冗余(model redundancy)

S²-Guidance巧妙地利用了这一点。如图2所示,在每个推理步骤中,它通过随机模块丢弃(Stochastic Block-Dropping)这一策略,在前向传播时临时“跳过”或“屏蔽”掉一小部分网络模块。这个过程等效于在推理时动态地、无成本地构建出一个轻量化的内生子网络(intrinsic sub-network)

这个子网络并非外部训练的“弱模型”,而是完整模型的一个原生变体。由于部分功能模块被临时禁用,其预测能力相对受限,而它的预测结果恰恰暴露了完整模型在高认知不确定性(epistemic uncertainty)区域的“潜在错误倾向”。这种方法的优越性在于,它是一种通用且自动的策略,无需研究者手动判断应修改哪个特定模块,也无需为不同任务设计不同的“手术方案”。

第二步:利用子网络预测进行负向引导
当子网络给出了其预测方向后,S²-Guidance执行了其最关键的一步:负向引导修正。它并非尝试去靠近或模仿子网络的预测,而是主动地排斥(repel)它。

这在S²-Guidance的引导公式中体现得淋漓尽致,其核心逻辑可以直观地理解为:

最终引导方向 = 标准CFG引导方向 - 子网络预测的“高不确定性”方向

通过这个简单的“纠错式减法”,模型在保持CFG强引导力的同时,被一个源自内部的修正信号“拉回”,从而精准地规避了那些可能导致生成低质量、不真实结果的“陷阱区域”。最终,该方法在无需外部模型和繁琐参数微调的前提下,实现了便捷、通用且高效的自我优化。

理论先行:在“玩具实验”中验证可行性

在提出这个大胆的假设后,研究团队首先在一维和二维的高斯混合分布(Gaussian Mixture)这种有精确解的“玩具实验”上进行了验证。结果(如下图-图3所示)非常清晰:

S²-Guidance 实现了引导强度与分布保真度的平衡。 在玩具实验中,CFG(红框)会扭曲分布,而S²-Guidance能精准地捕获真实数据分布(半透明区域)的位置和形状,缓解了模式分离和分布失真的问题。

资讯配图

有了理论上的坚实基础,团队才将其推广到更复杂的图像和视频生成任务中。

三、实验效果:全方位、可量化的质量提升

理论说得天花乱坠,不如看疗效。S²-Guidance在各大SOTA模型上,展现出了令人信服的、全方位的实力提升。

1 全面的视觉质量提升
开篇的这张对比图(图1)就是最好的证明。简单来说,S²-Guidance让生成结果在多个维度上实现了飞跃:

资讯配图

S²-Guidance 在美学质量和指令遵循度上,总能生成更出色的图像。 可以看到,像CFG、APG、CFG++和CFG-Zero这些现有的引导方法,常常会生成各种瑕疵,比如不自然的伪影、变形的物体,或者干脆无法理解复杂的指令(见红框)。而S²-Guidance方法则能产出干净、协调、观感舒适的图像,完美地规避了这些问题。

2 同台竞技,更胜一筹

当和其他先进的引导方法(如APG、CFG++、CFG-Zero)同台竞技时,S²-Guidance的优势就体现在稳定性上。在图4中可以看到,对于复杂的prompt,其他方法(红色框内)往往会产生扭曲的物体或不自然的伪影,或者干脆无法遵循完整的指令。而S²-Guidance则能稳定地生成干净、连贯且高度符合prompt描述的图像,在美学质量(aesthetic quality)和指令遵循度(prompt coherence)上都表现出色。

资讯配图

图5. S²-Guidance 能够生成时间和物理上都更合理的视频,解决了CFG的两大核心问题。 顶行对比: CFG无法生成合理的运动,它让卡车诡异地“横向漂移”而不是向前开(见红框)。相比之下,S²-Guidance渲染出了一个稳定又真实的行车场景。 底行对比: CFG没有完全理解指令,生成的光线并未“环绕”人脸(红色框),并且也漏掉了“发光粒子”这一细节(蓝色框)。而S²-Guidance则忠实地还原了整个prompt,生成了一个动态感十足、视觉元素丰富的场景。

3 视频生成:告别“指令遗忘症”,拥抱物理真实感

在视频生成中,S²-Guidance更是解决了CFG的两个核心痛点:

4 硬核数据:领先的性能表现

这些视觉提升的背后,是HPSv2.1、T2I-CompBench、VBench等权威榜单上实打实的领先成绩。例如,在SD3模型和T2I-CompBench基准上,S²-Guidance在颜色、形状、纹理等维度的得分上均超越了包括CFG-Zero在内的所有对比方法。在VBench视频评测中,S²-Guidance同样在总分、语义一致性等多个关键指标上取得了最优性能。

资讯配图
HPSv2.1、T2I-CompBench榜单上的对比
资讯配图
图7:VBench榜单上的对比

视觉效果对比 

S²-Guidance:

资讯配图
资讯配图
资讯配图
资讯配图


Baseline:

资讯配图
资讯配图
资讯配图资讯配图

四、不只是有效,而且高效

搞这么一套“自我纠错”系统,会不会很慢?答案是几乎不慢

研究者在论文中通过严谨的消融实验证明,哪怕在每个去噪步骤中只分裂出一个“小号”(即N=1),效果也和分裂出几十个小号取平均(Naive S²-Guidance)几乎一样好。

这得益于扩散过程单一步的微小随机抖动,在几十上百步的迭代中会被自然地“平均”掉,最终共同将生成结果稳稳地导向高质量的终点。

一句话总结:S²-Guidance用较小的计算代价,实现了显著的质量提升。

论文: https://arxiv.org/abs/2508.12880
项目主页: https://s2guidance.github.io/
项目代码: https://github.com/AMAP-ML/S2-Guidance

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

资讯配图


🌟 点亮星标 🌟

科技前沿进展每日见

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
OpenAI首个蛋白质模型披露更多细节,改进诺奖研究成果,表达量提升50倍
倒计时5天!西门子EDA年度大会-AI EDA|3DIC|IC设计及验证|物理设计及验证|制造与测试[上海]
【半导体】一款超低功耗的AI芯片
深度解读AI数据中心与汽车电子热管理技术 2025第四届中国先进热管理技术年会展商企业公布
特斯拉将接入DeepSeek和豆包/Meta再挖苹果AI高管/整套超千元,mini版LABUBU官宣
AI + 半导体黄金赛道!2025 湾芯展携手半导体行业观察共探未来
OpenAI用GPT-4b攻克诺奖难题!人体细胞「返老还童」,逆转效率飙升50倍
【教育】AI将重塑全球教育图景——国际人工智能与教育平行会议观察
「中国式方案」点亮AI黄金时代|36氪2025 AI Partner百业大会核心看点剧透
AI浪潮重塑一切,图形学路在何方?北大陈宝权入主SIGGRAPH执委会,肩负新使命
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号