不再靠“猜坐标”！新加坡工程院院士颜水成携华南理工 & A*STAR团队联合发布PaDT：实现真正的多模态表征输出

不再靠“猜坐标”！新加坡工程院院士颜水成携华南理工 & A*STAR团队联合发布PaDT：实现真正的多模态表征输出图1

> 原创作者：机智流编辑部

近年来，多模态大语言模型（Multimodal Large Language Models, MLLMs）在图文理解、视觉问答等任务上取得了令人瞩目的进展。然而，当面对需要精细空间感知的任务——比如目标检测、实例分割或指代表达理解时，现有模型却常常“力不从心”。其根本原因在于：当前主流 MLLMs 仍依赖将视觉目标“翻译”成文本坐标（如 [x1, y1, x2, y2]）的方式进行输出。这种方式不仅格式混乱、解析困难，还容易因数字被拆分成多个无关文本 token 缺乏语义性和图文关联性而导致重复生成，甚至产生幻觉。

针对这一核心瓶颈，新加坡工程院院士、AAAI/ACM/IEEE/IAPR Fellow颜水成带队，携同华南理工大学、新加坡科技研究局（A*STAR）I2R 研究所、腾讯 WeChat Vision等机构的研究团队，提出了一种全新的统一范式——Patch-as-Decodable Token（PaDT）。PaDT的核心思想很简单但颠覆性：

把图像划分成多个视觉小块（patch），并让模型可以直接生成这些小块对应的视觉令牌（Visual Reference Tokens, VRTs）。
在MLLMs的输入和输出端中，实现文本令牌与视觉令牌的无缝交替出现，让模型“说”图像内容就像“说”文字一样自然。
从而使模型不再“猜坐标”，而能在生成句子中直接指出图像目标。

凭借这一设计，PaDT在检测、分割、指代表达等任务上全面刷新 SOTA，甚至以仅 3B 参数的小模型超越了 78B 的 InternVL3！

不再靠“猜坐标”！新加坡工程院院士颜水成携华南理工 & A*STAR团队联合发布PaDT：实现真正的多模态表征输出图2

代码地址：https://github.com/Gorilla-Lab-SCUT/PaDT
模型权重：https://huggingface.co/PaDT-MLLM
论文链接：https://huggingface.co/papers/2510.01954
PaperScope解读：https://www.paperscope.ai/hf/2510.01954

从“说坐标”到“指图像”：PaDT 的核心思想

传统 MLLMs（如 Qwen2.5-VL、InternVL3）在处理视觉任务时，通常将检测框的坐标以字符串形式输出。例如，模型可能会生成 “[489, 120, 600, 300]”。然而，这种做法存在三大痛点：

格式不一致：同一任务下，不同样本可能输出绝对坐标、归一化坐标，甚至自由文本，极大增加后处理难度；
语义断裂：数字 “489” 会被拆成 “4”、“8”、“9” 三个独立 token，破坏了空间连续性；
缺乏对齐：坐标本身不含语义，难以与图像内容建立深层关联，容易导致重复或幻觉。

不再靠“猜坐标”！新加坡工程院院士颜水成携华南理工 & A*STAR团队联合发布PaDT：实现真正的多模态表征输出图3 — 图1：PaDT 与传统方法的对比。(a) 传统方法输出格式混乱；(b) Qwen2.5-VL 的 Token Activation Map 显示坐标 token 与图像区域关联弱；(c) PaDT 的 VRTs 与目标区域高度对齐；(d) 单个 VRT 的热力图显示其预测具有空间连续性。

PaDT 的突破在于：不再让模型“描述”位置，而是让它“指向”图像中的具体区域。

具体而言，PaDT 引入了 Visual Reference Tokens（VRTs）——这些令牌直接来源于输入图像的视觉 patch 嵌入。在每次前向传播中，模型会动态地将当前图像的 patch 特征扩展进文本词表，形成一个“图文一体”的动态嵌入表。这样，模型在生成过程中，既可以输出文字（如类别名），也可以插入 VRT（如 <VRT_227>），后者直接对应图像中的某个局部区域。

不再靠“猜坐标”！新加坡工程院院士颜水成携华南理工 & A*STAR团队联合发布PaDT：实现真正的多模态表征输出图4 — 图2：PaDT 统一视觉/文本 token 预测示意图。PaDT 实现了文本 token 与视觉 patch token 的统一预测，使 MLLM 能同时输出语义描述与空间定位。

这种设计巧妙地避开了传统方法依赖全局视觉码本（如 ClawMachine）的缺陷——后者容易混淆相似物体，且可能生成图像中根本不存在的 patch。而 PaDT 的 VRTs 仅来自当前图像，天然具备唯一性和空间一致性。

轻量解码器 + 鲁棒训练：让 VRTs 真正“可用”

仅有 VRTs 还不够，如何将其转化为具体的检测框或分割掩码？PaDT 设计了一个轻量级的 PaDT Decoder，仅由三个双向注意力块组成。该解码器接收 LLM 输出的 VRT 隐藏状态，通过注入任务特定的可学习 token（如 box token、mask token和score token），即可统一解码出 bounding box、segmentation mask 和置信度分数。

更关键的是，PaDT 提出了一套鲁棒的训练策略。传统方法往往要求模型预测目标区域内的所有前景 patch，但这会导致训练偏差和过拟合。PaDT 则在每次训练时随机采样少量（如 5 个）前景 VRTs 作为监督信号，并通过一种掩码交叉熵损失，动态屏蔽未选中的 VRT logits，从而鼓励模型探索多样化的有效视觉参考。

这种“少而精”的监督方式，不仅提升了模型泛化能力，还显著降低了推理时的 token 消耗——每个目标仅需 5 个 VRTs，远少于逐字符生成坐标的开销。

不再靠“猜坐标”！新加坡工程院院士颜水成携华南理工 & A*STAR团队联合发布PaDT：实现真正的多模态表征输出图5 — 图3：PaDT 整体框架。图像 patch 特征经动态嵌入模块扩展为 VRTs，与文本 token 一同输入 LLM；输出序列中的 VRTs 被轻量解码器转换为结构化视觉结果。

性能评估：3B 模型超越 78B 巨无霸

PaDT 的实验结果堪称惊艳。在 RefCOCO/+/g 的指代表达理解（REC）任务上，PaDT Pro（3B）以 93.6 的平均准确率，超越了参数量高达 78B 的 InternVL3（91.4）。而在指代表达分割（RES）任务中，PaDT 同样大幅领先，即便对比使用 SAM 等强大分割基础模型的方法（如 Text4Seg+SAM），依然保持优势。

更令人震撼的是在 COCO 开放词汇检测任务上的表现。传统 MLLMs 在此任务上 mAP 普遍低于 20，而 PaDT Pro（3B）一举将 mAP 推高至 38.2，几乎翻倍！7B 版本更是达到 39.0 mAP，展现出极强的可扩展性。

不再靠“猜坐标”！新加坡工程院院士颜水成携华南理工 & A*STAR团队联合发布PaDT：实现真正的多模态表征输出图6 — 图4：PaDT在RefCOCO/+/g的指代表达理解（REC）任务结果。PaDT Pro (3B) 以 93.6 的平均准确率，超越了参数量高达 78B 的 InternVL3（91.4）。

不再靠“猜坐标”！新加坡工程院院士颜水成携华南理工 & A*STAR团队联合发布PaDT：实现真正的多模态表征输出图7 — 图5：PaDT在RefCOCO/+/g的指代表达分割（RES）任务结果。PaDT依靠自带的轻量decoder轻松超越借助SAM强大分割基础模型的方法。

不再靠“猜坐标”！新加坡工程院院士颜水成携华南理工 & A*STAR团队联合发布PaDT：实现真正的多模态表征输出图8 — 图6：PaDT在COCO 开放词汇检测上的结果。PaDT Pro (3B) 一举将mAP推高至38.2。

此外，团队还构建了一个新的 Referring Image Captioning（RIC） 数据集，要求模型在生成描述时显式关联对象 ID。PaDT 在此任务上同样大幅领先，CIDEr-D 分数从基线的 0.386 提升至 1.450，同时检测指标（GreedyPrecision 达 82.3%）也证明其生成的 caption 具备极强的视觉 grounding 能力。

不再靠“猜坐标”！新加坡工程院院士颜水成携华南理工 & A*STAR团队联合发布PaDT：实现真正的多模态表征输出图9 — 图7：Referring Image Captioning (RIC)数据集。

为什么 PaDT 如此有效？

PaDT 的成功，源于其对 MLLM 视觉能力瓶颈的深刻洞察。它没有试图在文本空间内“拟合”视觉信息，而是将视觉 patch 本身作为可生成的 token，实现了模态间的原生对齐。

首先，动态嵌入机制确保了 VRTs 与当前图像的强绑定，避免了跨图像混淆；其次，统一的 token 空间让 LLM 能以相同的方式处理语言和视觉信息，简化了训练；最后，轻量解码器将复杂的 dense prediction 任务从 LLM 中解耦，既保留了 LLM 的语义推理能力，又赋予了其精准的空间输出能力。

值得一提的是，PaDT 还展现出强大的多任务泛化能力。通过联合训练 REC、RES、OVD 和 RIC 任务得到的 PaDT Pro 模型，仅通过切换 prompt 即可无缝切换任务，且性能普遍优于单任务模型，证明了该范式的通用性。

结语：迈向真正的通用多模态智能

PaDT 的提出，标志着 MLLMs 在细粒度视觉理解上迈出了关键一步。它不再满足于“看图说话”，而是能够“指图说话”——精准地指出图像中的每一个相关区域，并生成对应的结构化输出。

这项工作不仅在技术上实现了突破，更在理念上启发我们：未来的通用人工智能，或许不应强行将一切信息压缩到文本空间，而应允许不同模态以其最自然的形式共存与交互。

目前，PaDT 的代码和checkpoints（模型权重）已开源。对于关注多模态、计算机视觉与大模型融合的研究者和工程师而言，这无疑是一个值得关注和尝试的新范式。

代码地址：https://github.com/Gorilla-Lab-SCUT/PaDT
模型权重：https://huggingface.co/PaDT-MLLM
论文链接：https://huggingface.co/papers/2510.01954
PaperScope解读：https://www.paperscope.ai/hf/2510.01954