> 原创作者:机智流编辑部
近年来,多模态大语言模型(Multimodal Large Language Models, MLLMs)在图文理解、视觉问答等任务上取得了令人瞩目的进展。然而,当面对需要精细空间感知的任务——比如目标检测、实例分割或指代表达理解时,现有模型却常常“力不从心”。其根本原因在于:当前主流 MLLMs 仍依赖将视觉目标“翻译”成文本坐标(如 [x1, y1, x2, y2]
)的方式进行输出。这种方式不仅格式混乱、解析困难,还容易因数字被拆分成多个无关文本 token 缺乏语义性和图文关联性而导致重复生成,甚至产生幻觉。
针对这一核心瓶颈,新加坡工程院院士、AAAI/ACM/IEEE/IAPR Fellow颜水成带队,携同华南理工大学、新加坡科技研究局(A*STAR)I2R 研究所、腾讯 WeChat Vision等机构的研究团队,提出了一种全新的统一范式——Patch-as-Decodable Token(PaDT)。PaDT的核心思想很简单但颠覆性:
把图像划分成多个视觉小块(patch),并让模型可以直接生成这些小块对应的视觉令牌(Visual Reference Tokens, VRTs)。 在MLLMs的输入和输出端中,实现文本令牌与视觉令牌的无缝交替出现,让模型“说”图像内容就像“说”文字一样自然。 从而使模型不再“猜坐标”,而能在生成句子中直接指出图像目标。
凭借这一设计,PaDT在检测、分割、指代表达等任务上全面刷新 SOTA,甚至以仅 3B 参数的小模型超越了 78B 的 InternVL3!

代码地址:https://github.com/Gorilla-Lab-SCUT/PaDT
模型权重:https://huggingface.co/PaDT-MLLM
论文链接:https://huggingface.co/papers/2510.01954
PaperScope解读:https://www.paperscope.ai/hf/2510.01954
从“说坐标”到“指图像”:PaDT 的核心思想
传统 MLLMs(如 Qwen2.5-VL、InternVL3)在处理视觉任务时,通常将检测框的坐标以字符串形式输出。例如,模型可能会生成 “[489, 120, 600, 300]
”。然而,这种做法存在三大痛点:
格式不一致:同一任务下,不同样本可能输出绝对坐标、归一化坐标,甚至自由文本,极大增加后处理难度; 语义断裂:数字 “489” 会被拆成 “4”、“8”、“9” 三个独立 token,破坏了空间连续性; 缺乏对齐:坐标本身不含语义,难以与图像内容建立深层关联,容易导致重复或幻觉。

PaDT 的突破在于:不再让模型“描述”位置,而是让它“指向”图像中的具体区域。
具体而言,PaDT 引入了 Visual Reference Tokens(VRTs)——这些令牌直接来源于输入图像的视觉 patch 嵌入。在每次前向传播中,模型会动态地将当前图像的 patch 特征扩展进文本词表,形成一个“图文一体”的动态嵌入表。这样,模型在生成过程中,既可以输出文字(如类别名),也可以插入 VRT(如 <VRT_227>
),后者直接对应图像中的某个局部区域。

这种设计巧妙地避开了传统方法依赖全局视觉码本(如 ClawMachine)的缺陷——后者容易混淆相似物体,且可能生成图像中根本不存在的 patch。而 PaDT 的 VRTs 仅来自当前图像,天然具备唯一性和空间一致性。
轻量解码器 + 鲁棒训练:让 VRTs 真正“可用”
仅有 VRTs 还不够,如何将其转化为具体的检测框或分割掩码?PaDT 设计了一个轻量级的 PaDT Decoder,仅由三个双向注意力块组成。该解码器接收 LLM 输出的 VRT 隐藏状态,通过注入任务特定的可学习 token(如 box token、mask token和score token),即可统一解码出 bounding box、segmentation mask 和置信度分数。
更关键的是,PaDT 提出了一套鲁棒的训练策略。传统方法往往要求模型预测目标区域内的所有前景 patch,但这会导致训练偏差和过拟合。PaDT 则在每次训练时随机采样少量(如 5 个)前景 VRTs 作为监督信号,并通过一种掩码交叉熵损失,动态屏蔽未选中的 VRT logits,从而鼓励模型探索多样化的有效视觉参考。
这种“少而精”的监督方式,不仅提升了模型泛化能力,还显著降低了推理时的 token 消耗——每个目标仅需 5 个 VRTs,远少于逐字符生成坐标的开销。

性能评估:3B 模型超越 78B 巨无霸
PaDT 的实验结果堪称惊艳。在 RefCOCO/+/g 的指代表达理解(REC)任务上,PaDT Pro(3B)以 93.6 的平均准确率,超越了参数量高达 78B 的 InternVL3(91.4)。而在指代表达分割(RES)任务中,PaDT 同样大幅领先,即便对比使用 SAM 等强大分割基础模型的方法(如 Text4Seg+SAM),依然保持优势。
更令人震撼的是在 COCO 开放词汇检测任务上的表现。传统 MLLMs 在此任务上 mAP 普遍低于 20,而 PaDT Pro(3B)一举将 mAP 推高至 38.2,几乎翻倍!7B 版本更是达到 39.0 mAP,展现出极强的可扩展性。



此外,团队还构建了一个新的 Referring Image Captioning(RIC) 数据集,要求模型在生成描述时显式关联对象 ID。PaDT 在此任务上同样大幅领先,CIDEr-D 分数从基线的 0.386 提升至 1.450,同时检测指标(GreedyPrecision 达 82.3%)也证明其生成的 caption 具备极强的视觉 grounding 能力。

为什么 PaDT 如此有效?
PaDT 的成功,源于其对 MLLM 视觉能力瓶颈的深刻洞察。它没有试图在文本空间内“拟合”视觉信息,而是将视觉 patch 本身作为可生成的 token,实现了模态间的原生对齐。
首先,动态嵌入机制确保了 VRTs 与当前图像的强绑定,避免了跨图像混淆;其次,统一的 token 空间让 LLM 能以相同的方式处理语言和视觉信息,简化了训练;最后,轻量解码器将复杂的 dense prediction 任务从 LLM 中解耦,既保留了 LLM 的语义推理能力,又赋予了其精准的空间输出能力。
值得一提的是,PaDT 还展现出强大的多任务泛化能力。通过联合训练 REC、RES、OVD 和 RIC 任务得到的 PaDT Pro 模型,仅通过切换 prompt 即可无缝切换任务,且性能普遍优于单任务模型,证明了该范式的通用性。
结语:迈向真正的通用多模态智能
PaDT 的提出,标志着 MLLMs 在细粒度视觉理解上迈出了关键一步。它不再满足于“看图说话”,而是能够“指图说话”——精准地指出图像中的每一个相关区域,并生成对应的结构化输出。
这项工作不仅在技术上实现了突破,更在理念上启发我们:未来的通用人工智能,或许不应强行将一切信息压缩到文本空间,而应允许不同模态以其最自然的形式共存与交互。
目前,PaDT 的代码和checkpoints(模型权重)已开源。对于关注多模态、计算机视觉与大模型融合的研究者和工程师而言,这无疑是一个值得关注和尝试的新范式。
代码地址:https://github.com/Gorilla-Lab-SCUT/PaDT
模型权重:https://huggingface.co/PaDT-MLLM
论文链接:https://huggingface.co/papers/2510.01954
PaperScope解读:https://www.paperscope.ai/hf/2510.01954