NeurIPS 2025|VFMTok: Visual Foundation Models驱动的Tokenizer时代来临

机器之心 2025-10-28 17:36
NeurIPS 2025|VFMTok: Visual Foundation Models驱动的Tokenizer时代来临图1


视觉 Tokenizer 的困境与破局


近年来,自回归(Autoregressive, AR)模型在语言生成领域的成功激发了其在图像生成领域的应用,涌现出 DALL-E、Parti、VAR 和 LlamaGen 等代表性工作。这类技术高度依赖于 VQGAN 等视觉 Tokenizer,它负责将高维、冗余的像素空间映射到一个低维、紧凑的离散潜在空间,是决定生成模型上限的基石。


然而,以 VQGAN 为代表的传统 Tokenizer 通常需要从零开始训练,其训练目标由像素级重建损失函数主导,导致其产生的潜在空间:


  1. 富含低层细节特征却缺乏高层语义信息:能很好地还原图像细节,但潜在编码本身缺乏高层语义信息。

  2. 较高的潜在空间冗余: VAGAN 基于图像块 (patch) 逐一进行量化,而图像中的物体通常是不规则的区域,基于图像块的量化降低了 tokens 的编码效率。

  3. 无视结构特性的表征:潜在空间的组织较为混乱,使得生成模型不仅需要更长的训练时间来学习其潜在空间分布,而且往往得借助 CFG(Classifier-Free Guidance, CFG)等技巧来实现高保真度的图像生成,增加了模型推理时间。


与此同时,预训练的视觉基础模型(Visual Foundation Models, VFMs),如 CLIP、DINOv2、SigLIP2 等,在提取丰富语义且可泛化视觉特征方面表现出了强大的能力。这些模型通过自监督或语言监督的方式进行训练,它们能够有效抽象出图像中的高层语义信息,因此这些预训练的视觉基础模型大多应用于图像内容理解任务当中。直接将其应用于图像重建和生成任务上却鲜有人探索。


基于此,香港大学 CVMI Lab 和阶跃星辰 AIGC 团队提出一个大胆假设:原本为视觉理解任务设计的预训练视觉基础模型,其潜在特征是否也能直接作为图像重建与生成的鲁棒结构化表征?


为了验证这一猜想,我们探索了一个基础视觉模型新的应用新方向:用冻结的预训练视觉基础模型构造离散的视觉 Tokenizer,将其应用于图像重建和自回归图像生成任务上。


我们发现,相比于传统的视觉 Tokenizer 模型,视觉基础模型驱动的图像 Tokenizer 在这两项任务上均表现出优异的性能。


NeurIPS 2025|VFMTok: Visual Foundation Models驱动的Tokenizer时代来临图2



探索性发现


为了验证视觉基础模型 (VFMs) 能否构造高质量的视觉 Tokenizer,我们首次尝试使用不同的冻结的预训练基础视觉模型 (VFMs) 提取图像特征,将其送入 VQGAN 的编码器中进行端到端训练。训练阶段只有量化器(quantilizer)和解码器中的参数会进行更新,随后用它完成自回归图像生成任务。


实验表明:冻结的视觉基础模型 (VFMs) 提取的图像特征可以直接用于图像重建,且训练好的视觉 Tokenizer 在自回归图像生成任务上的表现优于传统的视觉 Tokenizer 模型。


这一发现凸显了预训练视觉基础模型 (VFMs) 构造高质量视觉 Tokenizer 的巨大潜力。


NeurIPS 2025|VFMTok: Visual Foundation Models驱动的Tokenizer时代来临图3


核心思想


基于我们的探索性发现:冻结的视觉基础模型 (VFMs) 可以直接构造高质量的视觉 Tokenizer 并进行端到端地训练,我们对构造的视觉 Tokenizer 的结构进行进一步的优化 —— 利用视觉基础模型 (VFMs) 提取图像的多层特征 (Multi-level Features Extraction),这有助于同时捕获图像中的低层细节特征和高层语义信息。


同时,我们注意到现有的量化机制 (quantization) 都是对图像块 (patch) 逐一量化,而图像中物体一般都是形状不规则的,因此我们设计了区域自适应的量化 (Region-Adaptive Quantization) 方案。该方案可以进一步降低潜在特征空间的冗余度,提高视觉 tokens 的利用效率。


此外,因为视觉基础模型的参数是冻结的,因此在重建图像内容的同时,我们也设计了语义特征重建的目标函数 (Semantic Reconstruction Objective),来提升视觉 Tokenizer 的语义保真度。我们将基于视觉基础模型 (VFMs) 的 Tokenizer 称之为 VFMTok。


NeurIPS 2025|VFMTok: Visual Foundation Models驱动的Tokenizer时代来临图4

VFMTok 架构图


关键技术细节


为了同时捕获图像低层细节特征和高层语义信息方便图像重建,VFMTok 采用冻结的预训练的视觉基础模型 (VFMs) 作为编码器提取多层级语义特征。VFMTok 按照等间隔的方式从预训练基础模型 (VFMs) 中提取多层特征 (multi-level features)。


为了实现区域自适应量化 (Region-Adaptive Quantization) 机制,VFMTok 通过可学习「锚点查询」(Anchor Queries)结合可变形注意力机制(Deformable Attention)自适应地从多层级特征 (multi-level features) 中进行区域自适应的特征采样 (Region-Adaptive Sampling)。


这种方式能聚焦于采样图像中模式一致的区域。随后,VFMToks 对可学习「锚点查询」(Anchor Queries)进行量化 (quantization)。这种方式可以有效提升 token 的利用效率 —— 用更少的 tokens(256)来表征一张图像。


NeurIPS 2025|VFMTok: Visual Foundation Models驱动的Tokenizer时代来临图5


因为视觉基础模型在 Tokenizer 的训练阶段参数是冻结的,因此 VFMTok 在重建图像的同时,也会重建冻结的基础模型(VFM)最后一层的语义特征。


为了实现这一点,VFMTok 解码阶段设计了一个共享的轻量级 Vision Transformer(ViT)。这个 ViT 接收区域自适应量化后的 tokens,结合一个可学习的 mask token 以及一组可学习的位置编码(Positional Embedding)作为输入,分别产生用于图像重建和语义重建的特征。共享 ViT 的设计既减少了参数量又保证了语义保真度。其双重目标函数是:


NeurIPS 2025|VFMTok: Visual Foundation Models驱动的Tokenizer时代来临图6


其中 NeurIPS 2025|VFMTok: Visual Foundation Models驱动的Tokenizer时代来临图7 是传统的视觉 Tokenizer 使用的一系列常规损失函数,NeurIPS 2025|VFMTok: Visual Foundation Models驱动的Tokenizer时代来临图8 是重建出的 VFM 特征与原始 VFM 特征之间的余弦相似度损失函数。


训练完成后,VFMTok 可以被应用于图像自适应回归任务上,基于 next-token prediction 的方式生成高质量的图像内容。


实验亮点与分析


1.卓越的重建生成质量与效率

大量实验表明,基于视觉基础模型 (VFMs) 构造的视觉 Tokenizer——VFMTok,具备高质量、高效率的图像重建和自回归图像生成能力。



NeurIPS 2025|VFMTok: Visual Foundation Models驱动的Tokenizer时代来临图9



NeurIPS 2025|VFMTok: Visual Foundation Models驱动的Tokenizer时代来临图10



NeurIPS 2025|VFMTok: Visual Foundation Models驱动的Tokenizer时代来临图11




2.消融实验的有力证明

仅使用冻结的 VFM 作为编码器,线性探针准确率(linear probing)就从 VQGAN 的 23.1% 提升至 56.4%。引入区域自适应量化 (Region-Adaptive Quantization) 和语义特征重建 (Semantic Reconstruction Objective) 后,VFMTok 仅用 256 个 Token 就能在重建质量(rFID 0.89 vs 0.95) 上全面超越使用 576 个 Token 的 VQGAN 基线 Tokenizer。


NeurIPS 2025|VFMTok: Visual Foundation Models驱动的Tokenizer时代来临图12


总结与展望


VFMTok 首次证明了冻结的视觉基础模型 (VFMs) 提取的图像特征能有效用于图像重建与生成,同时可以提升 Tokenizer 语义表征能力,使自回归 (AR) 图像生成模型收敛更快,并能实现 CFG-free 的高保真图像合成。VFMTok 提出的区域自适应量化机制,通过有效利用图像区域的固有冗余实现紧凑编码,在减少视觉 token 数量的同时提升性能,实现高效且高质量的自回归图像生成。


大量实验验证了 VFMTok 在图像重建和自回归生成中的有效性,确立了预训练视觉基础模型 (VFMs) 构造高质量、高效率 Tokenizer 的主导地位。


由此可见,利用 VFM 的先验知识是构建高质量潜在空间的必由之路,也是构建下一代 Tokenizer 的关键,这比任何从零开始的正则化或约束都更根本、更有效。预训练视觉基础模型的巨大潜力值得我们在未来深入挖掘,最终可能探索出一个能够有效兼容所有生成模型的、语义丰富、高质高效的「统一 Tokenizer」。


VFMTok 论文与代码均已公开,欢迎感兴趣的同学阅读、复现以及深入讨论。


作者介绍


本文作者主要来自于香港大学 CVMI Lab 和阶跃星辰 AIGC 团队。阶跃星辰 AIGC 团队主要致力于图像生成底模、图像编辑底模、世界模型以及 RL 后训练研究和落地。欢迎志同道合的同学交流和加入,一起为 AIGC 社区贡献力量。


NeurIPS 2025|VFMTok: Visual Foundation Models驱动的Tokenizer时代来临图13


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IP 驱动
more
NeurIPS 2025|VFMTok: Visual Foundation Models驱动的Tokenizer时代来临
【苹果】iPhoneAir首销激活量曝光 还不如前代Plus?
马斯克的 AI 百科 Grokipedia 刚发布就翻车:抄维基百科被抓现行,还夹带私货?
iPad Pro未来或将配备均热板/Windows 10停止支持引换机潮,Mac出货量大增/DeepSeek领跑AI实盘交易对决
iPhone也学坏了,正努力往iOS塞广告
M6 iPad曝光,或用iPhone 17 Pro同款均热板/DeepSeek领跑AI美股交易/OpenAI将进军音乐生成
iPhone二十周年纪念款 有望搭载苹果自研LOFIC图像传感器
马斯克Grokipedia刚上线就「翻车」?被指照抄维基,中文支持一塌糊涂
新机:小米17Ultra影像堆料很猛;iPhone18Pro配置曝光;华为Mate70Air本月发布;WIKOX70手机亮相
【苹果】曝iPhone18标准版将配备12GB运存
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号