让AI作画自己纠错！随机丢模块就能提升生成质量，告别塑料感废片

梦晨发自凹非寺
量子位 | 公众号 QbitAI

AI作画、生视频，可以「自己救自己」了？！

当大家还在为CFG（无分类器引导）的参数搞到头秃，却依然得到一堆“塑料感”废片而发愁时，来自清华大学、阿里巴巴AMAP（高德地图）、中国科学院自动化研究所的研究团队，推出全新方法S²-Guidance (Stochastic Self-Guidance)。

核心亮点在于通过随机丢弃网络模块（Stochastic Block-Dropping）来动态构建“弱”的子网络，从而实现对生成过程的自我修正。这不仅让AI学会了“主动避坑”，更重要的是，它避免了其他类似方法中繁琐、针对特定模型的参数调整过程，真正做到了即插即用、效果显著。

S²-Guidance方法在文生图和文生视频任务中，显著提升了生成结果的质量与连贯性。

具体表现在：

卓越的时间动态：无论是熊的运动姿态，还是赛车的动态镜头，都更具动感。
精细的细节渲染：能够刻画出宇航员头盔的透明质感等复杂细节。
更少的视觉伪影：有效减少了跑步者、打伞的女人等图像中的瑕疵。
丰富的艺术表达：在抽象肖像、城堡、彩色粉末爆炸等场景中，艺术细节更加饱满。
更好的物体协调性：猫与火箭、书与羊等组合中的物体关系更加和谐一致。

一、CFG的瓶颈：效果失真 + 缺乏通用性

在扩散模型的世界里，CFG (Classifier-Free Guidance)是提升生成质量和文本对齐度的标准操作。但它的“线性外推”本质，导致高引导强度下容易产生过饱和、失真等问题。

为了解决这个问题，学术界此前的思路是引入一个“监督员”——弱模型（weak model）。比如Autoguidance就提出用训练不充分的模型来修正。但这个思路在实践中遇到了核心难题：如何找到一个“恰到好处”的弱模型？

弱模型如果太弱，它的预测就接近于无用噪声，无法提供有效引导。
弱模型如果太强，它和主模型的行为又过于相似，起不到修正作用。
最关键的是，对于像SD3这样已经发布的大模型，我们几乎不可能再获得一个与之配套的、训练到“一半火候”的官方弱模型。这使得Autoguidance的思路虽然理论上可行，但在现实中往往难以复现和应用。

为了绕开这个难题，后续的一些工作尝试“凭空制造”弱模型。它们通过在推理时手动修改网络结构来实现，比如模糊化特定的注意力图（Attention Map），或者在视频生成中跳过某些时空注意力层。但这些方法又带来了新的问题：它们通常是高度定制化的，需要针对不同任务进行精细的参数调整和大量的实验，缺乏通用性，使用起来非常繁琐。

S²-Guidance则另辟蹊径，它问了一个直击灵魂的问题：我们能不能不找外援，也不搞复杂的调参，让模型自己监督自己，并且这个过程是通用且自动的？

二、S²-Guidance的精妙构思：“随机丢模块”就够了

S²-Guidance 在生成质量流形上的工作机制如下图所示。

生成过程从当前状态（Mₜ，橙色线框）向下一个状态（Mₜ₋₁）演进。标准CFG提供了一个强力但不够精准的引导方向（灰色箭头），它无法精确地命中代表最高质量的“山峰”（黄色峰值）。S²-Guidance的改进之处在于：它通过随机丢弃网络模块的策略，计算出一个“自我修正”的预测（蓝色箭头，“随机丢弃后的预测”）。最终，合成的S²-Guidance引导向量（紫色箭头）能更精准地将生成过程引向流形上的最优区域，最终得到保真度更高的结果。

第一步：通过随机模块丢弃，动态构建内生子网络

高性能扩散模型（如SD3）的核心架构多为Transformer，由一系列功能相似的Block堆叠而成。研究表明，这类大型网络存在显著的模型冗余（model redundancy）。

S²-Guidance巧妙地利用了这一点。如图2所示，在每个推理步骤中，它通过随机模块丢弃（Stochastic Block-Dropping）这一策略，在前向传播时临时“跳过”或“屏蔽”掉一小部分网络模块。这个过程等效于在推理时动态地、无成本地构建出一个轻量化的内生子网络（intrinsic sub-network）。

这个子网络并非外部训练的“弱模型”，而是完整模型的一个原生变体。由于部分功能模块被临时禁用，其预测能力相对受限，而它的预测结果恰恰暴露了完整模型在高认知不确定性（epistemic uncertainty）区域的“潜在错误倾向”。这种方法的优越性在于，它是一种通用且自动的策略，无需研究者手动判断应修改哪个特定模块，也无需为不同任务设计不同的“手术方案”。

第二步：利用子网络预测进行负向引导
当子网络给出了其预测方向后，S²-Guidance执行了其最关键的一步：负向引导修正。它并非尝试去靠近或模仿子网络的预测，而是主动地排斥（repel）它。

这在S²-Guidance的引导公式中体现得淋漓尽致，其核心逻辑可以直观地理解为：

最终引导方向 = 标准CFG引导方向 - 子网络预测的“高不确定性”方向

通过这个简单的“纠错式减法”，模型在保持CFG强引导力的同时，被一个源自内部的修正信号“拉回”，从而精准地规避了那些可能导致生成低质量、不真实结果的“陷阱区域”。最终，该方法在无需外部模型和繁琐参数微调的前提下，实现了便捷、通用且高效的自我优化。

理论先行：在“玩具实验”中验证可行性

在提出这个大胆的假设后，研究团队首先在一维和二维的高斯混合分布（Gaussian Mixture）这种有精确解的“玩具实验”上进行了验证。结果（如下图-图3所示）非常清晰：

S²-Guidance 实现了引导强度与分布保真度的平衡。在玩具实验中，CFG（红框）会扭曲分布，而S²-Guidance能精准地捕获真实数据分布（半透明区域）的位置和形状，缓解了模式分离和分布失真的问题。

CFG（b）虽然比无引导好，但生成的分布中心明显偏离了真实位置（红色框）。
Autoguidance（c）有所改善，但仍不完美，难以找到合适的弱模型导致其效果受限。
而S²-Guidance（e）生成的分布，在位置和形状上都与真实的半透明分布更加贴合，证明了这种“自我纠错”机制缓解了CFG的分布失真问题。

有了理论上的坚实基础，团队才将其推广到更复杂的图像和视频生成任务中。

三、实验效果：全方位、可量化的质量提升

理论说得天花乱坠，不如看疗效。S²-Guidance在各大SOTA模型上，展现出了令人信服的、全方位的实力提升。

1 全面的视觉质量提升
开篇的这张对比图（图1）就是最好的证明。简单来说，S²-Guidance让生成结果在多个维度上实现了飞跃：

动态感更强：无论是熊爬树时更有力的动作，还是赛车镜头里传达出的速度感，时间动态（temporal dynamics）都远超CFG。
细节更精致：宇航员头盔的透明质感、抽象画作的笔触、彩色粉末爆炸的瞬间，细节（finer details）都得到了惊人的保留和渲染。
伪影更少：跑步的人、打伞的女人等场景中，CFG常见的肢体扭曲和物体粘连等伪影（fewer artifacts）被有效消除。
物体一致性更好： “猫和火箭”、“书和羊”这类组合中，物体间的关系和比例（improved object coherence）更协调。

S²-Guidance 在美学质量和指令遵循度上，总能生成更出色的图像。可以看到，像CFG、APG、CFG++和CFG-Zero这些现有的引导方法，常常会生成各种瑕疵，比如不自然的伪影、变形的物体，或者干脆无法理解复杂的指令（见红框）。而S²-Guidance方法则能产出干净、协调、观感舒适的图像，完美地规避了这些问题。

2 同台竞技，更胜一筹

当和其他先进的引导方法（如APG、CFG++、CFG-Zero）同台竞技时，S²-Guidance的优势就体现在稳定性上。在图4中可以看到，对于复杂的prompt，其他方法（红色框内）往往会产生扭曲的物体或不自然的伪影，或者干脆无法遵循完整的指令。而S²-Guidance则能稳定地生成干净、连贯且高度符合prompt描述的图像，在美学质量（aesthetic quality）和指令遵循度（prompt coherence）上都表现出色。

图5. S²-Guidance 能够生成时间和物理上都更合理的视频，解决了CFG的两大核心问题。顶行对比： CFG无法生成合理的运动，它让卡车诡异地“横向漂移”而不是向前开（见红框）。相比之下，S²-Guidance渲染出了一个稳定又真实的行车场景。底行对比： CFG没有完全理解指令，生成的光线并未“环绕”人脸（红色框），并且也漏掉了“发光粒子”这一细节（蓝色框）。而S²-Guidance则忠实地还原了整个prompt，生成了一个动态感十足、视觉元素丰富的场景。

3 视频生成：告别“指令遗忘症”，拥抱物理真实感

在视频生成中，S²-Guidance更是解决了CFG的两个核心痛点：

物理真实性：遵循物理规律是生成可信视频的基础。如图5顶行所示，对于“一个停车计时器和一辆卡车”的场景，CFG在处理物体运动时出现了严重失真。视频中的卡车并没有正常行驶，而是呈现出一种不符合物理常识的“横向漂移”，这种不自然的滑动破坏了整个场景的真实感。相比之下，S²-Guidance（第二行）则成功渲染出一个稳定且逻辑自洽的场景，物体的运动状态真实可信
复杂指令遵循：对于“金线编织并环绕她的脸，周围还有发光粒子”这样的复杂描述，CFG不仅忽略了关键的“环绕”动作（光线没有在脸周围运动），还漏掉了“发光粒子”。S²-Guidance则忠实地还原了整个动态、丰富的视觉场景，一个细节都不少。

4 硬核数据：领先的性能表现

这些视觉提升的背后，是HPSv2.1、T2I-CompBench、VBench等权威榜单上实打实的领先成绩。例如，在SD3模型和T2I-CompBench基准上，S²-Guidance在颜色、形状、纹理等维度的得分上均超越了包括CFG-Zero在内的所有对比方法。在VBench视频评测中，S²-Guidance同样在总分、语义一致性等多个关键指标上取得了最优性能。