AI画手总是六根手指？阿大/美团/上交首次系统量化扩散模型计数幻觉

CountHalluSet团队投稿
量子位 | 公众号 QbitAI

扩散概率模型（diffusion probability models，DPMs）在图像生成任务上取得了卓越的成就，但它们仍频繁产生与现实世界知识相悖的“幻觉样本”（hallucinations），例如生成有六根手指的手掌或者漂浮在空中的多余物体。

尽管这类问题普遍存在，社区却一直缺乏系统性量化这些事实性错误的方法，这阻碍了下一代高可信度生成模型的研发进程。

为填补这一空白，来自阿德莱德大学、美团和上海交通大学的研究团队，首次对扩散模型中的一类特殊幻觉——“计数幻觉” （counting hallucination）进行了系统性的研究。

他们提出了几个关键问题：

如何准确量化扩散模型“数错数”的问题？
增加采样步数等常用求解器优化技巧是改善还是加剧了这个问题？
FID等主流图像质量评价指标能否有效捕捉到这类细粒度的错误？以及如何缓解扩散模型中的计数幻觉问题？

为了回答这些问题，该团队构建了首个用于量化计数幻觉的数据集套件CountHalluSet，并通过大量实验揭示了计数幻觉与扩散模型中不同采样条件之间的复杂关系。

更重要的是，他们基于实验提出了一种简单而有效的联合扩散模型（Joint-Diffusion Model，JDM），能够显著减少复杂真实图像中的计数幻觉和其它非计数类失败问题。

CountHalluSet: 计数幻觉评测基准

研究团队构建了包含三个数据集的CountHalluSet套件，其可数物体的形态复杂性逐级递增：

ToyShape: 包含简单的几何图形（三角形、正方形、五边形）。
SimObject: 包含照片级逼真度的日常三维物体（杯子、苹果、时钟）。
RealHand: 包含真实的、姿态各异的人手图像。

CountHalluSet由三个覆盖不同形态复杂度层级的可计数对象数据集组成：ToyShape（三角形、正方形、五边形）、SimObject（马克杯、苹果、时钟）以及RealHand（手指）。

此外，每个数据集有着各自的计数规则。在ToyShape和SimObject数据集中，每张图像最多包含每个类别的一个实例，且至少包含一个对象，而在RealHand数据集中，每张图像必须严格包含五根手指。

所谓计数幻觉，是指生成模型产生的图像违反了该数据集的计数事实，例如在一张图中生成了两个苹果，或仅生成了背景而没有任何对象，而这些模式在SimObject数据集中从未出现过。

各个数据集的计数幻觉评测流程如上图所示。对于ToyShape与SimObject数据集，生成图像可直接用于计数评估，由于它们的简单性和罕见的严重低质量图像。

而在RealHand数据集中，团队引入了“可计数性指示器（counting-ready indicator）”，用于区分计数幻觉样本与其他非计数类失败样本（如严重变形的手指）情况。

具体地，他们使用了一个MaxViT作为可计数性指示器，它是二分类器，在超过2.5千张代表性样本上训练得到。对于ToyShape与SimObject数据集，团队构建了一个超过400，000个样本的大型ToyShape/SimObject数据集，每个样本出现0-3次，以微调ResNet-50得到它们对应的“计数模型（counting model）”。

对于RealHand数据集，他们在超过2k张手部生成图像上对YOLO-12模型进行了微调，训练检测指尖，来得到该数据集的计数模型。

利用这些计数模型，团队可以检测生成图像中的对象出现次数，从而判断它们是否违反了数据集中的计数规则，最终实现量化计数幻觉。

比如，给定一个counting-ready样本，如果YOLO模型检测出该样本存在6个指尖，那么它就会被归类为计数幻觉样本。

实验及核心发现

量化实验

研究者们在扩散模型不同的采样条件下，量化了各个数据集生成样本的计数幻觉率，结果如下表所示：

发现一：采样步数对幻觉的影响呈现“合成–真实”分化趋势

研究发现，在常用的ODE求解器（25、50、100步）设置下，增加采样步数能有效降低合成数据集（ToyShape、SimObject）的计数幻觉率（CHR），但在真实数据集（RealHand）中却反而提升了计数幻觉率。

这表明：合成数据因结构简单、分布规则，能从更细粒度的求解器中获益；而真实数据分布更复杂，额外的采样步可能过度拟合局部不一致，从而放大幻觉。

发现二：更高阶的ODE求解器可降低总体失败率，却提升计数幻觉率

作为另一种ODE优化策略，DPM-Solver-2在相同步数下生成质量一般优于DPM-Solver-1。尽管这一策略显著降低了RealHand数据集的总体失败率（TFR），但却增加了计数幻觉率。

这揭示出：更高阶求解器虽能稳定全局结构，但可能削弱了模型对对象计数约束的敏感性。

发现三：祖先采样（DDPM）在幻觉抑制上表现最优

在所有对比中，DDPM始终实现最低的计数幻觉率、非计数类失败率和总体失败率。

这意味着：祖先采样为生成模型的失败率提供了一个现实下限，尤其在计算效率不是主要限制时，是最有效的减幻觉策略。

发现四：更合理的初始噪声可显著降低幻觉率

相较于标准高斯噪声（Normal），使用“扩散”噪声（Ground-truth初始噪声）能同时降低计数幻觉率、非计数类失败率和总体失败率。

这一结果表明：初始化的一致性对生成稳定性至关重要，更符合训练分布的噪声可有效缓解幻觉现象。

发现五：对象形态越复杂，计数幻觉越显著

随着对象形态从简单几何体（ToyShape）、中等复杂的合成物体（SimObject）到真实生物结构（RealHand）逐渐复杂，计数幻觉率持续上升。

这表明：结构复杂性显著挑战了扩散模型保持正确对象计数的能力。模型在处理高复杂度形态时更容易出现对象的“遗漏”或“重复”，解释了为何当前扩散模型尽管生成能力强大，却仍普遍存在幻觉问题。

解决方案：联合扩散模型（Joint-Diffusion Model，JDM）

既然模型在处理简单结构时不易出错，研究者提出了一个问题：如果在扩散过程中为模型提供明确的结构性约束，能否引导其生成正确的物体数量？

基于此，团队设计了联合扩散模型（JDM）。该模型在训练时，将原始手部图像和其对应的分割掩码（作为结构约束）在通道维度上进行拼接，使模型能够在共享的潜在空间中同时学习视觉表征与结构化的事实约束。具体而言，他们利用SAM-2提取的手部掩码进行通道级连接，为扩散模型提供清晰的像素级结构约束，从而在生成过程中显式控制空间布局。

这种机制使模型不仅遵守预定义的空间结构，还能在隐式层面形成语义一致且解剖合理的手部生成结果。通过在共享潜在空间内联合学习视觉特征与结构掩码约束，JDM显著提升了生成结果的语义一致性与视觉可信度，有效缓解了计数幻觉问题。

讨论与未来展望

这项工作的核心意义在于，它首次将扩散模型中模糊、主观的“幻觉”问题，转化为一个可定义、可量化、可系统性分析的“计数幻觉”问题。

研究结果对当前领域的一些普遍认知构成了挑战：让人们不能再盲目相信“更多的采样步数、更高阶的求解器总能带来更好的结果”，也不能再完全依赖FID这类传统指标来评判模型的“事实准确性” 。

这项研究为社区提供了一套全新的评测基准（CountHalluSet）和评估视角，推动行业从仅仅关注“生成得美不美”，转向同时关注“生成得对不对”，这对提升生成模型的可靠性和可信度至关重要。

未来，这项工作为探索更高阶的“事实一致性”生成模型开辟了广阔的道路：

从“计数”到“万物”：当前研究聚焦于物体数量，未来的工作可将这种量化分析方法扩展到更复杂的幻觉类型，如不合逻辑的空间关系、违反物理规律的现象（例如错误的光影反射）以及几何结构错误等。

更泛化的约束方法：本文提出的JDM模型验证了引入显式结构约束的有效性。未来的研究可以探索如何将更抽象、更复杂的知识（如场景图、物理规则、符号逻辑）融入扩散过程，发展出一种“事实约束下的生成”新范式。

最终目标：解决计数幻觉只是构建可信AI的第一步。通过持续攻克各类事实性错误，团队有望将生成模型从一个单纯的“创意工具”转变为一个可靠的“世界模型(world model)”，使其在科学模拟、工程设计、医学影像等对准确性要求极高的关键领域中发挥核心作用。

论文地址：https://arxiv.org/pdf/2510.13080
代码主页：https://github.com/ShyFoo/CountHallu-Diff