点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

——来自北大、UCSD、人大与BeingBeyond团队的ICCV 2025 Highlight研究
论文已被 ICCV 2025(Highlight) 接收
论文链接:https://arxiv.org/abs/2506.00596 项目主页:https://beingbeyond.github.io/Being-VL-0.5 代码仓库:https://github.com/beingbeyond/Being-VL-0.5
在人工智能的世界里,“看懂”和“理解”从来不是一回事。 计算机早已能识别物体、分割画面、生成描述,但当我们问它:
“这张图里的人在想什么?” 它依然答不上来。
这是因为视觉和语言——AI 感知世界的两种主要方式—— 在信息结构上并不兼容。
语言是离散的,由词语、句子组成; 视觉是连续的,由像素、区域构成。 这就像一个人说汉语,另一个人说信号波,两者如何交流?
长期以来,这种“模态断层”成为多模态大模型(MLLM)难以突破的瓶颈。
来自 北京大学、UC San Diego、中国人民大学 与 BeingBeyond 的研究团队, 在一篇被 ICCV 2025 接收为 Highlight 的论文中, 尝试用一种出乎意料的方法来修复这一裂缝。
📄 论文标题:Unified Multimodal Understanding via Byte-Pair Visual Encoding
他们提出了一个新概念:BPE-V(Byte-Pair Visual Encoding), 让模型第一次能以“语言的逻辑”来理解图像。

一、为什么视觉和语言一直“说不到一起去”
多模态人工智能的核心目标,是让模型在图像、文本、语音之间实现自然的融合。 然而,融合并不意味着简单地拼接。
语言是离散的,图像是连续的。 语言模型处理的是 token——一系列符号单元; 而视觉模型接收的是像素矩阵——没有边界、没有语法。
这就像让一个诗人去理解油画的笔触。 两者表达的世界观不同,逻辑不同,甚至“思维的单位”也不同。
过去几年,研究者们尝试了两条路径:
连续特征派:通过视觉编码器将图像变为向量特征,再送入语言模型。 → 优点:保留细节丰富;缺点:不兼容、计算重、容易产生幻觉。 离散量化派:用 VQ-GAN 等方法把图像离散化为视觉 token。 → 优点:与语言统一;缺点:语义信息被稀释,理解能力有限。
换句话说,前者看得太“细”,后者看得太“浅”。 AI 想真正理解图像,需要一种能兼顾细节与语义的表示方式。
这正是 BPE-V 想要解决的问题。
二、灵感:把视觉当作语言来“分词”
BPE(Byte-Pair Encoding)是自然语言处理里的“老功臣”。 它通过统计文本中高频共现的字符对,不断合并形成更大的“子词”, 最终让模型拥有一个既紧凑又语义丰富的词表。
BPE-V 的发明者提出:
如果图像也能“分词”,模型是否就能像读文字一样读图?
他们把这一想法变为现实:
首先,将图像通过 VQ-GAN 划分成基础视觉 token,类似语言中的“字母”; 然后,统计哪些 token 经常一同出现且位置固定,将它们合并为更复杂的“视觉词”; 经过多轮迭代,模型形成一个从纹理到物体再到场景的视觉词汇表。

举个例子: “眼睛”与“鼻子”总是出现在相邻区域,算法就把它们合并为“脸部”; “轮胎”和“车身”共现频繁,最终演化为“汽车”。
视觉信息因此从像素走向了语义。 图像,开始拥有自己的“语言结构”。
三、Priority-Guided机制:让视觉分词更“聪明”
但事情没那么简单。 如果只靠频率合并,模型可能会学出很多“伪组合”—— 比如草地与天空、路面与建筑,它们经常一起出现,却并非语义整体。
BPE-V 在此引入了一个关键设计:Priority-Guided Encoding(优先引导机制)。
它不仅考虑出现频率,还计算空间一致性。 换句话说,模型在决定“哪些视觉块要合并”时,会参考它们的相对位置是否稳定。
合并得分被定义为:
P(a,b) = F(a,b) + α·S(a,b)
其中 F 代表共现频率,S 衡量空间关系的一致性。 只有同时满足“高频共现 + 空间稳定”的 token 对,才有资格形成新词。

这样一来,BPE-V 生成的视觉词汇不再是随机拼接的“色块”, 而是真正具备结构意义的视觉概念。
四、让模型学会“读图”:三阶段课程学习
拥有词汇表只是第一步,模型还得学会如何使用这些新词汇。 研究团队因此提出了一个三阶段课程式训练策略, 让模型从“识字”到“读懂”,逐步掌握多模态语义。
词嵌入对齐阶段: 冻结语言模型,仅训练视觉 token 嵌入层,确保两种模态在语义空间中接近。 选择性解冻阶段: 打开 Transformer 的前几层,让模型开始学习视觉与语言的互动逻辑。 全模型优化阶段: 在多模态任务上端到端训练,使模型具备完整的视觉推理和语言表达能力。
这种分层训练方式,与 BPE-V 的层级结构天然契合。 模型不再被迫同时学习“看”和“说”, 而是像人类一样,循序渐进地理解视觉世界。

五、实验结果:语言与视觉的边界被模糊了
研究团队基于 BPE-V 训练了 Being-VL 系列模型, 并在多个基准上进行验证。
结果显示:
Being-VL-0.5+ 在 VQAv2 上取得 80.6 分,在 MMBench 上达到 72.1 分; 相比此前的离散视觉模型,性能提升显著; 甚至在某些任务上逼近连续特征模型(如 LLaVA-Next、VILA-1.5)。

更令人关注的是,模型的嵌入空间出现了一个惊人的变化: 视觉 token 与文本 token 的权重分布趋于一致。 换句话说,BPE-V 让图像与文字在同一语义平面上对齐。
语言和视觉,终于在同一个句法系统中交流。
六、通向统一智能的下一步
BPE-V 的意义不仅在于性能突破,更在于它重新定义了“模态统一”的方式。
过去,我们试图让语言去理解图像; 而 BPE-V 的思路是——
让图像变成语言的一部分。
通过构建“视觉词典”,BPE-V 将视觉信息离散化、符号化, 让 Transformer 能以相同的 token 流同时处理图像与文本。
这种机制天然具有可扩展性。 无论是视频、音频,还是三维场景, 只要能被“分词”,就能进入同一个语义框架。
这也意味着: AI 的多模态统一,不再是技术堆叠的结果, 而是语言化理解的延伸。

七、结语:理解,从“说同一种语言”开始
语言让人类能够描述世界, 而 BPE-V 让机器也拥有了类似的能力—— 用“语言的单位”去理解视觉的内容。
从像素到符号,从统计到语义, BPE-V 打通了语言与视觉的最后一公里。
未来,当图像、声音与文字都能共享同一词汇表, 人工智能或许就真正拥有了统一的思维方式。
3D视觉1V1论文辅导来啦!
3D视觉学习圈子
星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!