视觉语言模型“扫地僧”：360低调开源FG-CLIP2登顶29项全球基准测试

局部细节之上见未来。

作者｜田思奇

编辑｜栗子

两周前，一个名为FG-CLIP2的模型，悄然出现在GitHub和HuggingFace上。

没有盛大的发布，也没有铺天盖地的宣传，但它在技术社区迅速积累起良好口碑。从国内技术社区的深度解析，到韩国IT出版社的跟进报道，加之其初代模型早已获得人工智能顶会ICML的背书，外界对FG-CLIP2的关注持续升温。

在多达29个公开基准测试中，FG-CLIP2的性能已全面超越Google的SigLIP 2和Meta的MetaCLIP2，成为全球最强图文跨模态视觉基础模型（VLM）。

视觉语言模型“扫地僧”：360低调开源FG-CLIP2登顶29项全球基准测试 | 甲子光年图4

这款“扫地僧式”的模型，出自360人工智能研究院。它的成功让一个问题重新回到聚光灯下：在大模型竞争白热化的2025年，为什么360率先完成这一步？

关键在于，FG-CLIP2把VLM从“看得见”推向“看得清”，也把视觉基座的上限，交回给“像素级的对齐”。

1.从全局印象到局部洞察

视觉语言模型“扫地僧”：360低调开源FG-CLIP2登顶29项全球基准测试 | 甲子光年图5

2025年，人工智能行业逐渐从AIGC创造力的狂欢中冷静下来，直面更棘手的问题：AI对现实世界的理解依然脆弱。

无论是自动驾驶车辆在复杂路况下的犹豫，还是AIGC屡屡画错的手指，都指向同一个瓶颈：模型对世界细节的感知是粗糙且不可靠的。所有先进的AI应用的前提是：机器必须真正看懂世界。

视觉语言模型（VLM）的核心任务，是将图像和文本分别解析成机器可读的图像特征（Image Feature）与文本特征（Text Feature），并在这两者之间建立精准的语义匹配。这种解析与对齐的精准度，决定了AIGC生成模型和LMM多模态大语言模型的能力上限。

CLIP模型，正是扮演了这一视觉基座的角色，如同AI的“眼脑接口”。它通常在幕后工作，不像大语言模型或视频模型那样被大众所熟知，但其重要性不言而喻。

视觉语言模型“扫地僧”：360低调开源FG-CLIP2登顶29项全球基准测试 | 甲子光年图6

然而，以往模型看世界的方式，多半只得到一个“全局”的印象。比如它们能识别出一幅“人和狗”的画，但难以看清画中的细节，乃至复杂的空间关系。

换句话说，AI的视觉理解长期停留在“看得见”，却远未达到“看得清”的阶段。

FG-CLIP2针对这一瓶颈，提出了一条新的技术路径。其最大的价值优势，就是实现了局部细粒度识别。

模型不会将图片作为一个整体来囫囵吞枣地理解。相反，它会将一张图像分解为成千上万个微小的局部特征区域，并对每一个区域进行独立的、精细化的分析。

就像人类的视觉系统，不仅能感知整个场景，更能将视线中心对准任何一个细节，并清晰地洞察它。

举个例子，FG-CLIP2能够将“穿红色夹克的男人”这个复杂场景，解析为“夹克”（局部区域），“红色”（属性特征），以及“男人”（主体）。

这让它不再只看到“一个人和一只狗”，而能清晰区分出“穿红色夹克的男人在抚摸一只金毛犬”与“穿蓝色夹克的女人在牵着一只拉布拉多”。

同时，FG-CLIP2也能实现对复杂语言表达的精准响应，比如有效区分语义相近的文字说明。

此外，FG-CLIP2擅长对复杂空间关系的理解。

例如，在一张“一只猫在电脑屏幕前，屏幕里是另一只猫”的图片中，过去的模型可能会混淆为“两只猫和一张桌子”。而FG-CLIP2通过局部信息分析，能够理解其空间层次：一只猫物理上“在……前面”，另一只猫是“在……里面”的数字图像。

这种对“内外”、“前后”、“上下”和遮挡关系的精确判断，是具身智能在物理世界行动和交互的基础。

视觉语言模型“扫地僧”：360低调开源FG-CLIP2登顶29项全球基准测试 | 甲子光年图7

另一关键突破，是在局部洞察的基础上，打破了视觉理解的语言壁垒。

视觉信息无国界，但理解往往受限于语言。FG-CLIP2是全球首批在模型底层实现中英双语均衡训练的视觉语言模型。它能像一个真正的双语者，用两种语言的思维去理解图像中的每一个局部细节。

「甲子光年」认为，对于需要面向全球市场的中国企业而言，这种能力能够帮助它们用一套统一的技术基座，一次性打通全球最大的两个语种市场。

从更深层的角度看，这种原生的中文理解能力，本身就是一种文化层面的数据资产，有助于构建更加平衡和包容的全球AI技术生态。

这两大跨越的直接成果，让FG-CLIP2在29项全球公开基准测试中的全面领先。它为AI视觉理解设定了更高的行业基准，也为更智能，更可靠的下游应用打开了想象空间。

2.如何让模型学会看细节？

为了让FG-CLIP2实现真正的局部理解和像素级对齐，360人工智能研究院在模型训练最基础的环节：数据、方法和架构等，都进行了系统性的重构。

首先是FineHARD数据集。当架构逐渐趋同、算力可按需购买时，对数据的理解深度已经取代了模型参数，成为难以被快速复制的核心优势。于是，360 选择重建一套能支撑细粒度学习的训练体系。

FineHARD汇集了数十亿对中英文图文样本。英文部分来自增强版LAION-2B，中文整合了Wukong、Zero与360自有的5亿对样本，并新增LIT-CN、DCI-CN等评测集，补齐了中文场景长期缺失的测试标准。

通过“三层细粒度对齐”设计，FineHARD 数据集强化了模型对细节、空间与语义的感知力。

第一，在全局层面，每张图像同时配有一段约20词的短文本和一段超过150词的长文本，既概述场景核心语义，又补充物体属性和空间关系，让模型在宏观理解的同时具备细节记忆。

第二，在局部层面，数据集基于开放世界目标检测（OVD）模型提取对象位置，并为4000万个区域生成对应描述，使模型在训练中真正“聚焦”图像内部的局部差异。

第三，在样本层面，团队利用大语言模型构造并清洗出1000万组“细粒度难负样本”，这些语义极近却存在细微差别的数据，迫使模型在像素级做出辨别，显著提升了鲁棒性与辨析力。

视觉语言模型“扫地僧”：360低调开源FG-CLIP2登顶29项全球基准测试 | 甲子光年图9

其次，有了高质量的数据，还需要相应的训练方法来释放其潜力。FG-CLIP2采用了一种“先全局，后局部”的两阶段训练策略。

第一阶段是预训练，目标是实现初步的图文语义对齐。在这个阶段，模型采用与CLIP类似的整体信息对齐策略，但区别在于，除了互联网上常见的短文本，360还为每张图像增加了包含详细细节描述的“长文本”。通过在数据层面引入更丰富的语义信息，为第二阶段的细粒度对齐打下了坚实基础。

第二阶段是关键的细粒度对齐训练。在这个阶段，训练策略不再采用CLIP的整体对齐方式。取而代之的是“图像局部信息与文本局部信息对齐”的策略。这一步是FG-CLIP2能够实现图文细粒度理解的核心方法，它来源于360在开放世界目标检测（OVD）和多模态大模型（LMM）研究中的技术积累，让模型真正学会了将文本中的具体描述与图像中的相应区域建立精确映射。

视觉语言模型“扫地僧”：360低调开源FG-CLIP2登顶29项全球基准测试 | 甲子光年图10

这套复杂的训练，运行在一个为工业落地量身定制的架构之上。FG-CLIP2沿用了显式双塔结构，图像和文本特征可以被预先计算和缓存，确保了在广告检索等高并发场景下毫秒级的响应速度。同时，动态分辨率机制让模型能自适应处理不同尺寸的输入，避免信息丢失，保证了训练与推理行为的一致性。

最后在语言层面，该模型在底层实现了中英语料的原生并行训练，而非后期叠加翻译模块。这种原生双语设计，使得FG-CLIP2成为首个在中英文任务上同时达到全球最优水平的视觉语言模型。

如今，这一模型已通过360人工智能研究院开放接口，以API加MCP形式服务开发者。这项底层创新得以延伸到更多行业与应用中，成为产业智能化新的起点。

3.AI“看细”，产业“看远”

在AI的多模态世界里，FG-CLIP2扮演的角色是整个智能系统的起点，一个让语言、视觉与空间三种信息融合的通用视觉理解接口。

它的技术价值在于，首次在模型底层实现了局部细粒度识别与原生双语对齐的统一，使机器能够同时感知像素级的细节、空间层次与语义逻辑。

在360人工智能研究院的多模态体系中，视觉语言模型（VLM）、多模态大语言模型（LMM）、AIGC生成模型与开放世界目标检测（OVD），构成了一个从看懂世界、到生成世界、再到理解空间的完整闭环。FG-CLIP2正是这个体系的起点，为上层模型提供精准的视觉语义支撑。

在电商领域，这种对细节和逻辑的精准复现能力，成为了绝佳的试金石。 FG-CLIP2让“以文搜图”的精度进入新阶段。它能理解诸如“穿红裙、提白包、站在橱窗前的女性”这类复杂描述，并将其分解为颜色、姿态、背景位置等局部特征，再与商品图像逐一匹配。相比传统CLIP只能识别“女性加裙子”的全局语义，FG-CLIP2在召回率和准确率上都有显著提升。

对于跨语种平台，它还能在中英文语料中保持一致语义理解，一次训练覆盖全球主要市场，显著降低多语言标注和适配成本。未来，它将在广告素材管理、直播选品、用户行为预测等场景中延伸，让视觉智能成为电商生态的底层能力。

更进一步，这种深刻的视觉理解能力，是让机器人在物理世界中实现智能行动的前提，这正是具身智能的核心。在这里，FG-CLIP2的细粒度视觉理解能力发挥了空间智能的价值。机器人可以通过自然语言指令执行精准操作，例如识别“桌上红色的杯子”与“柜子里蓝色的盒子”的区别，或区分“打开的抽屉”和“关着的抽屉”。模型不再只是识别单个物体，而是理解了执行动作所必需的方位关系、遮挡结构和交互状态。这种空间语义的建立，为机器人、自动驾驶和工业检测等应用提供了可靠的视觉基础。

甲子光年智库在报告中指出，具身智能的核心在于感知到执行的协同，而视觉模型是关键起点。因此，像FG-CLIP2这样的细粒度视觉语言模型，为机器人提供可扩展的感知能力，使其在真实环境中看懂任务、理解语义并完成动作。

FG-CLIP2的细粒度理解能力还在多个领域展现潜力。在AIGC内容生成中，它可作为控制信号，确保生成画面与文本提示在细节上高度一致，例如在广告图像生成中精准定位品牌Logo和产品颜色。在内容审核与安防监控中，它能跨语言识别局部违规元素，如特定人物、标志或隐喻性组合，支持“寻找背着黑色双肩包的男子”这类自然语言检索。

目前FG-CLIP2已在360集团的多个核心业务中落地，包括广告图像匹配、IoT摄像机场景识别与360云盘图片搜索。模型在高并发场景下稳定运行，延迟可控在毫秒级，验证了其在真实商业环境中的工程可靠性。

4.非共识的AI发展哲学

FG-CLIP2的成功，让外界好奇，为什么是一家以“安全”著称的互联网公司，能在视觉理解这个基础领域取得了突破？答案在于一种长期存在于360内部，却与当前AI发展阶段高度契合的非共识哲学。

这种哲学源自其技术成长的起点。安全业务工程师的工作，不仅是确保系统基本正常运行，更要找到那1%可能摧毁一切的漏洞。当这种思维被应用于训练AI时，天然地就会让他们更关注那些让模型出错的“难负样本”，追求模型的鲁棒性和可靠性，而非仅仅是平均表现。这是一种从安全时代继承而来的反脆弱基因。

正是基于这种基因，360很早就做出了前瞻性的战略布局。当行业大部分注意力还集中在AI生成的显性成果上时，360已在思考更深的一层：如果没有足够稳固的底层模型，这些绚烂的应用或将难以持续。

从2021年起，360人工智能研究院就开始系统化地布局多模态研究，提出视觉、文本与空间三维并进的路线。其成果并非一次性的“秀肌肉”，而是持续、可验证的产出： 过去三年，团队在ICML、NeurIPS、ICCV等顶级会议发表论文12篇，并在多项国际AI竞赛中夺冠。

视觉语言模型“扫地僧”：360低调开源FG-CLIP2登顶29项全球基准测试 | 甲子光年图13

当2025年诺贝尔奖再度聚焦基础学科，它也照亮了AI发展的本质：基础模型决定未来高度。 当整个行业都在追逐“更快、更强、更通用”的明线时，360在“更稳、更准、更可靠”的暗线上持续投入。直到今天，当AI落地的需求让可靠性进入聚光灯下，这条暗线才终于显现出它的价值。

人工智能的发展，正从探索创造能力的边界，回归到提升理解现实的精度。FG-CLIP2的出现，不仅是某个公司在技术排行榜上的一次登顶，更是行业发展逻辑的一次重要提醒：在赋予机器强大的生成能力之前，必须先为其建立一个可靠的感知基础。

看清世界的勇气，与创造世界的想象力同样珍贵。

（文中图片来源：360人工智能研究院封面图由AI生成）

视觉语言模型“扫地僧”：360低调开源FG-CLIP2登顶29项全球基准测试 | 甲子光年图14

END.