
题目:Understanding Fine-tuning CLIP for Open-vocabulary Semantic Segmentation in Hyperbolic Space
论文地址:https://openaccess.thecvf.com/content/CVPR2025/papers/Peng_Understanding_Fine-tuning_CLIP_for_Open-vocabulary_Semantic_Segmentation_in_Hyperbolic_Space_CVPR_2025_paper.pdf
代码地址:https://github.com/SJTU-DeepVisionLab/HyperCLIP

创新点
通过调整文本嵌入在双曲空间中的半径,使其从“高语义层级”(靠近边界)对齐到“像素级层级”(靠近中心),从而赋予CLIP分割能力。
传统观点认为冻结CLIP文本编码器有助于保持开放词汇泛化能力,但最新研究发现联合微调图像和文本编码器反而能提升性能。本文首次从层级对齐(hierarchical alignment)的角度解释了这一“反直觉”现象。
方法
本文提出了一种名为 HyperCLIP 的新型微调框架,其核心思想是在双曲空间中通过可学习的块对角缩放矩阵对 CLIP 的文本与图像嵌入进行层级对齐。具体而言,首先将 CLIP 的预训练嵌入映射到庞加莱球模型(Poincaré ball)所刻画的双曲空间,利用莫比乌斯矩阵乘法(Möbius multiplication)实现非线性的缩放变换,使文本嵌入的“双曲半径”从原本靠近球体边界的高层级语义位置逐步收缩至靠近中心的低层级像素位置,从而与图像嵌入的像素级特征层级相匹配。该缩放矩阵以块对角形式构造,既可通过调节块大小在“逐元素缩放”与“全矩阵变换”之间灵活切换,又能在共享参数的情况下将可学习参数量压缩至原模型的约 4%。训练时仅更新这些缩放矩阵,其余 CLIP 参数保持冻结,以实现参数高效且保留开放词汇泛化能力的分割适应。
双曲空间层级可视化”

本图通过庞加莱球模型将抽象的层级结构具象化:球体中心附近的小半径区域被映射为低层视觉概念,对应图像中的原始像素或局部纹理;随着向球面方向移动,半径逐渐增大,语义层级升高,最终到达球面附近的大半径区域,象征整幅图像或场景级概念。图中黑色短路径体现双曲几何中“越靠近中心越拥挤”的特性,而红色箭头则动态演示了微调前后文本嵌入的位置变化——从远离中心的高层语义区被“拉回”中心附近,与像素级视觉特征处于同一层级,直观解释了为何层级对齐能提升开放词汇分割性能。
文本嵌入双曲半径分布变化

本图以直方图形式统计了 COCO-Stuff 171 个类别在零-shot(蓝色)与微调后(橙色)的半径分布。横轴为双曲半径数值,纵轴为类别出现频次。可以明显看到橙色分布整体左移并收窄,说明微调后所有文本概念的半径被系统性地缩小,从而靠近像素层级;这一统计证据为“层级下调带来分割能力”提供了定量支持,也消除了仅凭个例可能带来的偶然性怀疑。
HyperCLIP 框架

本图用流程图描绘了整个方法的计算路径。原始 CLIP 输出的欧氏特征先经指数映射(Exp)投射到双曲空间,随后与可学习的块对角缩放矩阵 S 进行莫比乌斯矩阵乘法(Möbius Mul),实现对嵌入半径的精确控制;调整后的双曲特征再通过对数映射(Log)回到欧氏空间,进入下游分割解码器。图中将冻结的 CLIP 主干与仅需更新的少量参数(S)用不同颜色区分,突出展示了参数高效性,同时解释了为何无需改动 CLIP 结构即可完成层级对齐。
实验

本表以“开放词汇语义分割”在 ADE20K、PASCAL-Context、PASCAL VOC 三大公开基准共六组测试集上的 mIoU 为主要指标,横向对比了十余种代表性方法。表头从左到右依次列出方法名称、所用 VLM、额外主干网络、微调空间(E 为欧氏,H 为本文双曲)、以及各测试集得分。纵向来看,首先列出的是“部分微调”流派:ZS3Net、LSeg、OpenSeg、ZegFormer、ZSseg、OVSeg、ZegCLIP 等,它们通常冻结或极轻量级地调整 CLIP,因而在类别较多的 A-847 与 PC-459 上得分普遍低于 10 分;随后是“选择性微调”代表 SED、CAT-Seg,它们开始放开文本编码器,成绩明显抬升。整张表清晰地展示了“层级对齐+参数高效”思路带来的跨数据集、跨规模的稳健提升。
-- END --

关注“学姐带你玩AI”公众号,回复“CLIP改进”
领取CLIP魔改方案合集+开源代码
