ICCV 2025 Highlight | 图像也能“说话”：BPE-V让视觉模型拥有语言的思维方式

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

ICCV 2025 Highlight | 图像也能“说话”：BPE-V让视觉模型拥有语言的思维方式图1

——来自北大、UCSD、人大与BeingBeyond团队的ICCV 2025 Highlight研究

论文已被 ICCV 2025（Highlight）接收

论文链接：https://arxiv.org/abs/2506.00596
项目主页：https://beingbeyond.github.io/Being-VL-0.5
代码仓库：https://github.com/beingbeyond/Being-VL-0.5

在人工智能的世界里，“看懂”和“理解”从来不是一回事。计算机早已能识别物体、分割画面、生成描述，但当我们问它：

“这张图里的人在想什么？” 它依然答不上来。

这是因为视觉和语言——AI 感知世界的两种主要方式—— 在信息结构上并不兼容。

语言是离散的，由词语、句子组成；视觉是连续的，由像素、区域构成。这就像一个人说汉语，另一个人说信号波，两者如何交流？

长期以来，这种“模态断层”成为多模态大模型（MLLM）难以突破的瓶颈。

来自 北京大学、UC San Diego、中国人民大学与 BeingBeyond 的研究团队，在一篇被 ICCV 2025 接收为 Highlight 的论文中，尝试用一种出乎意料的方法来修复这一裂缝。

📄 论文标题：Unified Multimodal Understanding via Byte-Pair Visual Encoding

他们提出了一个新概念：BPE-V（Byte-Pair Visual Encoding），让模型第一次能以“语言的逻辑”来理解图像。

ICCV 2025 Highlight | 图像也能“说话”：BPE-V让视觉模型拥有语言的思维方式图2

一、为什么视觉和语言一直“说不到一起去”

多模态人工智能的核心目标，是让模型在图像、文本、语音之间实现自然的融合。然而，融合并不意味着简单地拼接。

语言是离散的，图像是连续的。语言模型处理的是 token——一系列符号单元；而视觉模型接收的是像素矩阵——没有边界、没有语法。

这就像让一个诗人去理解油画的笔触。两者表达的世界观不同，逻辑不同，甚至“思维的单位”也不同。

过去几年，研究者们尝试了两条路径：

连续特征派：通过视觉编码器将图像变为向量特征，再送入语言模型。 → 优点：保留细节丰富；缺点：不兼容、计算重、容易产生幻觉。
离散量化派：用 VQ-GAN 等方法把图像离散化为视觉 token。 → 优点：与语言统一；缺点：语义信息被稀释，理解能力有限。

换句话说，前者看得太“细”，后者看得太“浅”。 AI 想真正理解图像，需要一种能兼顾细节与语义的表示方式。

这正是 BPE-V 想要解决的问题。

二、灵感：把视觉当作语言来“分词”

BPE（Byte-Pair Encoding）是自然语言处理里的“老功臣”。它通过统计文本中高频共现的字符对，不断合并形成更大的“子词”，最终让模型拥有一个既紧凑又语义丰富的词表。

BPE-V 的发明者提出：

如果图像也能“分词”，模型是否就能像读文字一样读图？

他们把这一想法变为现实：

首先，将图像通过 VQ-GAN 划分成基础视觉 token，类似语言中的“字母”；
然后，统计哪些 token 经常一同出现且位置固定，将它们合并为更复杂的“视觉词”；
经过多轮迭代，模型形成一个从纹理到物体再到场景的视觉词汇表。

ICCV 2025 Highlight | 图像也能“说话”：BPE-V让视觉模型拥有语言的思维方式图3

举个例子： “眼睛”与“鼻子”总是出现在相邻区域，算法就把它们合并为“脸部”； “轮胎”和“车身”共现频繁，最终演化为“汽车”。

视觉信息因此从像素走向了语义。图像，开始拥有自己的“语言结构”。

三、Priority-Guided机制：让视觉分词更“聪明”

但事情没那么简单。如果只靠频率合并，模型可能会学出很多“伪组合”—— 比如草地与天空、路面与建筑，它们经常一起出现，却并非语义整体。

BPE-V 在此引入了一个关键设计：Priority-Guided Encoding（优先引导机制）。

它不仅考虑出现频率，还计算空间一致性。换句话说，模型在决定“哪些视觉块要合并”时，会参考它们的相对位置是否稳定。

合并得分被定义为：

P(a,b) = F(a,b) + α·S(a,b)

其中 F 代表共现频率，S 衡量空间关系的一致性。只有同时满足“高频共现 + 空间稳定”的 token 对，才有资格形成新词。

ICCV 2025 Highlight | 图像也能“说话”：BPE-V让视觉模型拥有语言的思维方式图4

这样一来，BPE-V 生成的视觉词汇不再是随机拼接的“色块”，而是真正具备结构意义的视觉概念。

四、让模型学会“读图”：三阶段课程学习

拥有词汇表只是第一步，模型还得学会如何使用这些新词汇。研究团队因此提出了一个三阶段课程式训练策略，让模型从“识字”到“读懂”，逐步掌握多模态语义。

词嵌入对齐阶段：冻结语言模型，仅训练视觉 token 嵌入层，确保两种模态在语义空间中接近。
选择性解冻阶段：打开 Transformer 的前几层，让模型开始学习视觉与语言的互动逻辑。
全模型优化阶段：在多模态任务上端到端训练，使模型具备完整的视觉推理和语言表达能力。

这种分层训练方式，与 BPE-V 的层级结构天然契合。模型不再被迫同时学习“看”和“说”，而是像人类一样，循序渐进地理解视觉世界。

ICCV 2025 Highlight | 图像也能“说话”：BPE-V让视觉模型拥有语言的思维方式图5

五、实验结果：语言与视觉的边界被模糊了

研究团队基于 BPE-V 训练了 Being-VL 系列模型，并在多个基准上进行验证。

结果显示：

Being-VL-0.5+ 在 VQAv2 上取得 80.6 分，在 MMBench 上达到 72.1 分；
相比此前的离散视觉模型，性能提升显著；
甚至在某些任务上逼近连续特征模型（如 LLaVA-Next、VILA-1.5）。

ICCV 2025 Highlight | 图像也能“说话”：BPE-V让视觉模型拥有语言的思维方式图6

更令人关注的是，模型的嵌入空间出现了一个惊人的变化：视觉 token 与文本 token 的权重分布趋于一致。换句话说，BPE-V 让图像与文字在同一语义平面上对齐。

语言和视觉，终于在同一个句法系统中交流。

六、通向统一智能的下一步

BPE-V 的意义不仅在于性能突破，更在于它重新定义了“模态统一”的方式。

过去，我们试图让语言去理解图像；而 BPE-V 的思路是——

让图像变成语言的一部分。

通过构建“视觉词典”，BPE-V 将视觉信息离散化、符号化，让 Transformer 能以相同的 token 流同时处理图像与文本。

这种机制天然具有可扩展性。无论是视频、音频，还是三维场景，只要能被“分词”，就能进入同一个语义框架。

这也意味着： AI 的多模态统一，不再是技术堆叠的结果，而是语言化理解的延伸。

ICCV 2025 Highlight | 图像也能“说话”：BPE-V让视觉模型拥有语言的思维方式图7

七、结语：理解，从“说同一种语言”开始

语言让人类能够描述世界，而 BPE-V 让机器也拥有了类似的能力—— 用“语言的单位”去理解视觉的内容。

从像素到符号，从统计到语义， BPE-V 打通了语言与视觉的最后一公里。

未来，当图像、声音与文字都能共享同一词汇表，人工智能或许就真正拥有了统一的思维方式。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉1V1论文辅导来啦！

ICCV 2025 Highlight | 图像也能“说话”：BPE-V让视觉模型拥有语言的思维方式图8

3D视觉学习圈子

ICCV 2025 Highlight | 图像也能“说话”：BPE-V让视觉模型拥有语言的思维方式图9

3D视觉全栈学习课程：www.3dcver.com

ICCV 2025 Highlight | 图像也能“说话”：BPE-V让视觉模型拥有语言的思维方式图10

3D视觉交流群成立啦，微信：cv3d001

ICCV 2025 Highlight | 图像也能“说话”：BPE-V让视觉模型拥有语言的思维方式图11