点击下方卡片,关注“大模型之心Tech”公众号
今天大模型之心Tech为大家分享北航×字节ICCV 2025中稿的大模型相关工作-用于图像提示目标检测的视觉文本化。本文提出了 VisTex-OVLM 方法,通过视觉文本化将视觉样本投影到文本特征空间,以增强目标级视觉语言模型(OVLMs)检测罕见类别的能力,同时保留预训练的目标 - 文本对齐。如果您有相关工作需要分享,请在文末联系我们!
论文标题:Visual Textualization for Image Prompted Object Detection
论文作者:Yongjian Wu等
作者单位:北航、字节跳动
论文链接:https://arxiv.org/pdf/2506.23785
开源链接:https://github.com/WitGotFlg/VisTex-OVLM
视觉文本化在图像提示目标检测中的创新探索——动机与贡献
视觉-语言模型的演进与目标级建模的突破: 近年来,视觉-语言模型(VLMs)通过海量图像-文本对预训练展现出卓越的泛化能力,其零样本迁移特性为目标检测带来了新范式。其中,目标级视觉-语言模型(OVLMs)如GLIP,通过融合目标检测与短语接地数据,构建多阶段、多尺度编码器,强化了目标-文本的语义对齐。与传统VLMs(如CLIP)相比,OVLMs借助交叉注意力机制使文本提示主动引导目标特征表示与位置回归,在零样本目标检测中更具优势。
OVLM零样本检测的固有局限与挑战: 尽管OVLMs表现突出,但其零样本目标检测(ZSOD)存在三重核心问题:
预训练数据偏差:下游任务中的许多目标在预训练数据中覆盖不足,导致迁移性能受限; 文本提示语义缺失:自然语言描述难以捕捉细粒度特征,存在语义偏差与信息遗漏; 类间文本混淆:相似物体在文本空间中的描述高度重叠(如不同品种的鸟类),仅靠文本难以区分。
这些挑战凸显了引入下游任务视觉信息的必要性。现有少样本目标检测(FSOD)方法虽尝试通过视觉样本微调或结构修改增强模型,但存在破坏OVLM原有目标-文本对齐的风险,进而损害其泛化能力。
图像提示的潜力与现有方案的不足: 以图像作为提示(Image Prompting)为补充文本语义提供了新思路,但多数OVLMs缺乏对图像提示的原生支持。例如,MQ-Det通过在文本编码器中添加可训练交叉注意力模块,使图像提示调制文本Token,但该方法仅重加权现有文本特征,未直接引入新视觉信息,且新增结构可能偏离预训练对齐。此外,OWL-ViT等模型依赖特定预训练架构,难以泛化至其他OVLMs。
VisTex-OVLM的核心创新与设计思路:

图1. 使用不同方法将在Object365上预训练的GLIP迁移到MSCOCO后,Object365数据集中目标-文本对的特征余弦相似度频率分布。
为解决上述问题,本文提出VisTex-OVLM,其核心在于视觉文本化(Visual Textualization):通过将少量视觉样本投影到文本特征空间,在不修改OVLM架构的前提下,使其同时利用文本提示与视觉语义进行检测。具体设计包括:
多尺度文本化块(MSTB):利用OVLM的视觉编码器提取多尺度特征,通过轻量级模块将其映射到文本空间,保留不同尺度下的目标细节; 非参数化多阶段融合(MSF):整合视觉编码器各阶段的文本化特征,借助OVLM预训练的多阶段对齐能力,生成语义丰富的视觉Token; 直接提示集成:将文本化视觉Token与文本提示串联输入原OVLM,避免结构修改导致的对齐破坏。
实验表明,该方法在开放集场景(如LVIS、医学数据集)和少样本基准(PASCAL VOC、MSCOCO)中均实现了性能突破,且通过消融实验验证了视觉文本化对保留预训练对齐的关键作用。
本文核心贡献:
首次提出视觉文本化概念,实现图像提示对OVLM的无损集成,扩展其检测预训练未覆盖类别的能力; 设计MSTB与MSF模块,在保留OVLM原结构的同时,高效利用其预训练知识; 在零样本与少样本场景中验证了视觉-文本互补的有效性,为开放词汇目标检测提供了实用方案。
该研究为视觉-语言模型在稀缺数据场景下的应用开辟了新路径,尤其适用于移动设备等需要轻量化适配的场景。
本文首发于大模型之心Tech知识星球,硬核资料在星球置顶:加入后可以获取大模型视频课程、代码学习资料及各细分领域学习路线~
VisTex-OVLM方法的技术实现与创新设计

图2. VisTex-OVLM概述。VisTex-OVLM通过参数共享的多尺度文本化块(MSTB)和非参数化多阶段融合策略对支持图像进行视觉文本化,将支持图像映射到文本特征空间,以直接对未修改的目标级视觉语言模型(如GLIP[31]和GroundingDINO[33])进行提示。
1. 任务定义与OVLM基础框架
在少样本目标检测(FSOD)中,数据集分为基类集合 和新类集合 ,其中新类每个类别仅含K个标注样本(K-shot)。推理时,支持图像提供视觉示例,查询图像为待检测目标。广义少样本检测(GFSOD)则要求模型同时处理基类与新类,对泛化能力提出更高要求。
目标级视觉-语言模型(OVLMs)的核心设计包括:
层次化视觉编码器:生成多尺度区域特征 ,捕捉不同大小的目标; 扩展文本编码器:通过短语接地数据扩充词汇表,文本特征 与视觉特征对齐; 多阶段交叉注意力:通过跨模态交互强化目标-文本语义关联。
其中, 包含M个尺度特征, 由文本Tokenizer生成,维度为 ,构成OVLM的基础编码框架。
2. 视觉文本化:核心原理与实现路径
图像提示工程:从视觉到语义的预处理
为最大化少样本标注的有效性,作者采用背景模糊技术处理支持图像:对目标边界框外区域进行高斯模糊,突出前景目标并抑制背景干扰。该策略借鉴语义分割中的图像提示经验,确保支持图像的视觉信息聚焦于目标类别。
多尺度文本化块(MSTB):视觉特征的文本空间映射
MSTB的核心目标是将支持图像的视觉特征投影到OVLM的文本特征空间。具体流程如下:
多尺度特征提取:利用OVLM的冻结视觉编码器,提取支持图像 的多尺度特征 ,其中 对应第i阶段第j尺度的特征; 跨尺度特征处理:对除最小尺度外的特征,使用3×3卷积(步长2)下采样,提取关键视觉信息,最小尺度特征直接保留; 参数共享策略:不同尺度特征使用共享卷积核处理,降低训练成本并促进跨尺度知识迁移; 文本空间映射:通过MLP将融合后的视觉特征映射到文本维度 ,生成文本化视觉特征 。
数学表达为:
该设计使MSTB能捕捉支持样本的细粒度局部细节与全局上下文,增强新类语义表示。
3. 多阶段融合策略(MSF):跨层级语义整合
非参数化特征融合机制
MSF的目标是将不同视觉编码器阶段的文本化特征整合成统一的视觉Token。通过非参数化操作(如最大池化)融合各阶段特征 ,生成最终文本化视觉Token :
该策略避免引入额外参数,充分利用OVLM预训练的多阶段目标-文本对齐能力。实验表明,融合所有阶段特征(尤其是低层到高层)能最佳保留目标细节与语义抽象的平衡。
多阶段融合的必要性
OVLM的多阶段编码器中,低层特征包含更多空间细节,高层特征侧重语义抽象。MSF通过整合不同阶段特征,使文本化视觉Token同时具备细粒度定位能力与语义判别性。消融实验显示,仅使用高层特征会导致小目标检测性能显著下降,而全阶段融合能提升12.3%的新类AP值。
4. 直接支持图像提示:无损集成与推理流程
文本-视觉提示的联合编码
在推理阶段,VisTex-OVLM将文本化视觉Token与文本提示直接串联输入OVLM:
单样本场景: K样本场景:
其中, 为目标类别的文本描述, 为第k个支持图像的文本化Token。该设计保留了OVLM原有的编码流程,未修改其架构或预训练权重,从而维持了目标-文本对齐。
3.4.2 训练策略与兼容性
MSTB仅在基类数据集 上训练,使用OVLM的预训练损失函数(如对比损失、边界框回归损失)。训练时,对每个基类随机选取K-shot支持图像生成文本化Token,与文本提示联合输入模型。训练完成后,MSTB可直接处理新类支持图像,无需针对新类微调,适用于开放词汇检测场景。
5. 与现有方法的核心差异
对比MQ-Det等图像提示方法,VisTex-OVLM的独特性在于:
无损对齐:不修改OVLM原结构,通过特征投影而非参数微调引入新类信息,实验显示其目标-文本余弦相似度分布与预训练模型更接近(见图1); 视觉信息直接集成:MQ-Det仅调制现有文本Token,而VisTex-OVLM生成独立的文本化视觉Token,避免语义信息丢失; 多尺度-多阶段联合优化:MSTB与MSF的设计充分利用OVLM的层次化特征提取能力,在少样本场景下实现更强的表示学习。
验验证与性能分析
1. 实验设置与数据集选择
开放集场景数据集
LVIS MiniVal:挑战长尾目标检测,包含大量预训练数据中罕见的类别; ODinW35未见子集:11个自然场景数据集(如PKLot_640、plantdoc),GLIP-L在其中mAP≤2,验证模型对未知领域的适应性; 医疗数据集:5个非自然图像数据集(MoNu、CCRCC等),测试模型在专业领域的泛化能力。
标准少样本基准
PASCAL VOC:采用3种基类-新类划分(Split1-3),每划分含15个基类和5个新类,测试1-10 shot场景下的AP50; MSCOCO:将与PASCAL VOC重叠的20类作为新类,其余60类为基类,评估1-30 shot的mAP表现; 广义少样本检测(GFSOD):在MSCOCO上同时测试基类(bAP)和新类(nAP)的检测性能。
对比方法与基线
零样本基线:OVLM-ZS(如GLIP-ZS),直接使用预训练权重; 全微调基线:OVLM-FF,在新类支持图像上微调所有参数; 少样本方法:Meta-DETR、DeFRCN等非VLM方法,以及MQ-Det、OWL-ViT等VLM基方法; 提示调优方法:GLIP-MaPLe,验证文本提示优化的效果。
2. 开放集检测性能分析

表1. 开放集场景下的性能表现。ODinW35 [29]中的子集A~K分别为:PKLot_640、openPoetryV、boggleBoards、dicemedCol、OxfPetsbybreed、UnoCards、plantdoc、EgoHands_s、webScreenshots、OxfPetsbyspecies、MaskWearing。最佳结果以粗体标注。
跨领域迁移能力
在LVIS MiniVal上,VisTex-GLIP的AP达到50.7%,较GLIP-FF提升2.4%,且APr(稀有类别)提升5.9%。在ODinW35未见子集中,VisTex-DINO的AP最高达73.1%(子集G),显著优于OWL-ViTv2(50.6%)和MQ-Det(40.1%)。医疗数据集中,VisTex-GLIP在Deeplesion的AP达11.7%,较GLIP-FF提升0.8%,证明其对非自然图像的适应性。
零样本与少样本对比
OVLM-ZS在开放集场景下性能大幅下降(如GLIP-ZS在ODinW35子集A的AP接近0),而VisTex-OVLM通过2-shot支持图像即可实现有效检测。这表明视觉文本化能弥补预训练数据缺失,验证了图像提示作为语义补充的必要性。
3. 少样本基准测试结果

表2. 不同少样本目标检测(FSOD)方法在三个PASCAL VOC新类划分集上的AP50对比。最佳结果以粗体标注。

表3. 在MSCOCO数据集上的少样本目标检测(FSOD)性能表现。最佳结果以粗体标注。
PASCAL VOC上的SOTA表现
在PASCAL VOC的3个划分中,VisTex-GLIP在10-shot场景下的平均AP50达71.8%,较次优方法MTL-FSOD提升0.6%,且在所有split和shot数下均优于GLIP-FF(54.2%)和MQ-Det(57.5%)。其中,Split1的10-shot AP50达74.8%,证明其对细粒度目标的检测能力。
MSCOCO上的泛化能力
在MSCOCO的30-shot场景中,VisTex-GLIP的mAP达53.6%,较GLIP-FF(49.4%)提升4.2%,且随shot数增加性能持续提升(1-shot:47.9% → 30-shot:53.6%)。对比非VLM方法(如SNIDA-MFD的23.8%),优势显著,验证了VLM与视觉文本化结合的有效性。
4. 广义少样本检测(GFSOD)验证

表4. 在MSCOCO数据集上的广义少样本目标检测(GFSOD)性能。最佳结果以粗体标出。
在MSCOCO的GFSOD设置中,VisTex-GLIP在10-shot时的bAP(基类AP)为46.2%,nAP(新类AP)为52.7%,均优于MQ-Det(bAP46.5%,nAP47.8%)。30-shot时nAP达53.6%,证明其在扩展新类的同时能保持基类识别能力,避免了“灾难性遗忘”。
5. 消融实验:关键组件的有效性验证

表5. 提示模式及关键组件的有效性。“✓∗”表示直接使用支持图像进行微调,#Par(M)表示可训练参数的数量。最佳结果以粗体标注。
多尺度文本化与参数共享
单尺度vs多尺度:仅使用最小尺度特征时,nAP下降4.7%;全尺度融合(0-4层)使nAP提升至51.8%,验证多尺度特征对捕捉不同大小目标的重要性; 参数共享策略:MSTB共享参数可减少5.15M可训练参数,同时nAP提升1.2%,表明跨尺度知识迁移能增强文本化效果。
多阶段融合策略(MSF)
阶段选择影响:仅使用高层阶段(5-8层)时nAP骤降至13.6%,而全阶段融合(1-8层)实现最佳性能,说明低层特征对小目标定位的关键作用; 融合方式对比:最大池化(max pooling)较平均池化和拼接更优,nAP提升3.7%,因其能突出最具判别性的特征。
提示模式与图像工程
文本+视觉vs单一提示:仅使用图像提示时AP下降7.2%,证明文本提示的语义引导不可或缺; 图像预处理效果:背景模糊(BG blur)较直接输入原图使AP提升33.3%,因该策略减少了背景干扰,聚焦目标目标。
6.可视化与注意力分析

图3. 在COCO数据集上的对比输出可视化结果。(a) MetaDETR,(b) DiGeo,(c) DeFRCN,(d) MFD,(e) MQ-Det,(f) VisTexGLIP。绿色、红色和黄色框分别表示真阳性、假阳性和假阴性。

图4. 注意力热图对比。(a) 真实标签,(b) GLIP-ZS(零样本),(c) GLIP-FF(全量微调),(d) GLIP-MaPLe,(e) MQ-Det,(f) 无文本提示的VisTex-GLIP,(g) VisTex-GLIP。
检测结果可视化
在COCO和ODinW13数据集上,VisTex-OVLM的检测框与真值重合度更高,且假阳性(红色框)明显少于Meta-DETR和MQ-Det。例如,在Aquarium数据集中,VisTex-GLIP正确识别稀有海洋生物,而其他方法存在大量漏检(黄色框)。
注意力机制分析
通过注意力热图可见,VisTex-GLIP的目标特征对文本化视觉Token的关注度更高,且背景噪声更少。相比之下,GLIP-FF和GLIP-MaPLe的注意力分布分散,MQ-Det虽抑制噪声但目标聚焦不足,验证了视觉文本化对维持对齐的有效性。
7. 计算效率与兼容性
计算开销
VisTex-GLIP的推理时间为0.547s/图像,与原GLIP相当,仅预处理支持图像增加0.031s,且文本化Token可缓存复用。可训练参数仅10.87M,远少于GLIP-FF的397.59M,适合轻量化部署。
跨模型兼容性
在RegionCLIP和FIBER等其他OVLMs上,VisTex仍能提升性能。例如,VisTex-RegionCLIP在LVIS的APr达40.3%,较RegionCLIP-FF提升4.2%,证明其方法的通用性。
总结
本文介绍了VisTex-OVLM,一种新颖的目标检测方法,利用视觉文本化将视觉样例投影到文本特征空间,以在不破坏预训练目标-文本对齐的情况下对目标级视觉语言模型(OVLM)进行提示。为实现视觉文本化,作者设计了多尺度文本化块(MSTBs)和多阶段融合(MSF)策略,充分利用OVLM强大的目标-文本对齐和目标级特征提取能力,使文本化的视觉Token能够实现最佳语义表示。VisTex-OVLM在开放集检测(LVIS和16个未见数据集)和少样本基准(PASCAL VOC和MSCOCO)上均实现了最先进的性能。VisTex-OVLM适用于包括GLIP和GroundingDINO在内的常见OVLM,突出了使用图像提示来补充文本提示的优势,并验证了其在解决零样本目标检测局限性方面的有效性。
知识星球交流社区
我们创建了一个全新的学习社区 —— “大模型之心Tech”知识星球,希望能够帮你把复杂的东西拆开,揉碎,整合,帮你快速打通从0到1的技术路径。
星球内容包含:每日大模型相关论文/技术报告更新、分类汇总(开源repo、大模型预训练、后训练、知识蒸馏、量化、推理模型、MoE、强化学习、RAG、提示工程等多个版块)、科研/办公助手、AI创作工具/产品测评、升学&求职&岗位推荐,等等。
星球成员平均每天花费不到0.3元,欢迎扫码加入一起学习一起卷!