“问渠那得清如许，为有源头活水来”，通过前沿领域知识的学习，从其他研究领域得到启发，对研究问题的本质有更清晰的认识和理解，是自我提高的不竭源泉。为此，我们特别精选论文阅读笔记，开辟“源头活水”专栏，帮助你广泛而深入的阅读科研文献，敬请关注！

你是否曾让AI画“三只猫”，结果它却给你画了五只，或者干脆糊成一团？当前强大的文生图（T2I）模型虽然在艺术风格和真实感上表现惊人，但在精确控制生成对象的“数量”上却常常“数不清”。

为了解决这个业界难题，来自清华大学、加利福尼亚大学圣迭戈分校（UC San Diego）和加利福尼亚大学伯克利分校（UC Berkeley）的研究者们提出YOLO-Count，一个创新的、可微分的、开放词汇的对象计数模型。它不仅在通用计数任务上达到了SOTA水平，更重要的是，它能作为“指导老师”，教会T2I模型如何精确地按指令生成指定数量的物体。

作者: Guanning Zeng, Xiang Zhang, Zirui Wang, Haiyang Xu, Zeyuan Chen, Bingnan Li, Zhuowen Tu
机构: 清华大学; 加州大学圣地亚哥分校; 加州大学伯克利分校
论文标题: YOLO-Count: Differentiable Object Counting for Text-to-Image Generation
论文地址: https://arxiv.org/pdf/2508.00728v1
录用会议: ICCV 2025

研究背景

精确的数量控制是实现可控内容生成的关键一环。然而，现有的T2I模型，如Stable Diffusion XL (SDXL)，在遵循包含数字的文本提示时表现不佳。

传统的对象计数方法，无论是基于检测还是基于密度图回归，都难以直接有效地集成到T2I模型的生成过程中。基于检测的方法通常是不可微分的，无法通过梯度指导生成；而基于密度图的方法在处理稀疏对象或尺寸变化大的对象时存在偏差。

如何设计一个既能准确计数，又能与生成模型无缝协作的模块，是当前面临的核心挑战。

YOLO-Count：核心方法与创新

为了解决上述挑战，研究者们提出了YOLO-Count。它是一个完全可微分的架构，能够以端到端的方式进行优化，并指导生成模型。

其核心创新主要有以下几点：

1. 基数图 (Cardinality Map)：

这是YOLO-Count最核心的贡献。研究者提出了一种新颖的回归目标——基数图。与传统密度图不同，基数图的每个网格单元（grid cell）直接回归一个[0, 1]之间的值，表示该单元“包含”一个对象的“分数”。将整个图的数值求和，便能得到总的对象数量。这种设计巧妙地解决了对象大小和空间分布变化带来的计数偏差问题，无论物体大小如何，每个物体都贡献大约为1的总和。

2. 可微分与开放词汇：

YOLO-Count建立在YOLO-World架构之上，继承了其开放词汇的能力，可以对任意类别的对象进行计数。更重要的是，整个模型是完全可微分的。这意味着YOLO-Count计算出的计数值与期望值之间的误差，可以通过梯度下降的方式，反向传播给T2I模型，从而在生成过程中实时“纠正”其行为，使其生成正确数量的对象。