ICCV 2025 Highlight | 图像也能“说话”:BPE-V让视觉模型拥有语言的思维方式

3D视觉工坊 2025-10-06 00:00

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

ICCV 2025 Highlight | 图像也能“说话”:BPE-V让视觉模型拥有语言的思维方式图1

——来自北大、UCSD、人大与BeingBeyond团队的ICCV 2025 Highlight研究

论文已被 ICCV 2025(Highlight) 接收

  • 论文链接:https://arxiv.org/abs/2506.00596
  • 项目主页:https://beingbeyond.github.io/Being-VL-0.5
  • 代码仓库:https://github.com/beingbeyond/Being-VL-0.5

在人工智能的世界里,“看懂”和“理解”从来不是一回事。 计算机早已能识别物体、分割画面、生成描述,但当我们问它:

“这张图里的人在想什么?” 它依然答不上来。

这是因为视觉和语言——AI 感知世界的两种主要方式—— 在信息结构上并不兼容。

语言是离散的,由词语、句子组成; 视觉是连续的,由像素、区域构成。 这就像一个人说汉语,另一个人说信号波,两者如何交流?

长期以来,这种“模态断层”成为多模态大模型(MLLM)难以突破的瓶颈。

来自 北京大学、UC San Diego、中国人民大学 与 BeingBeyond 的研究团队, 在一篇被 ICCV 2025 接收为 Highlight 的论文中, 尝试用一种出乎意料的方法来修复这一裂缝。

📄 论文标题:Unified Multimodal Understanding via Byte-Pair Visual Encoding

他们提出了一个新概念:BPE-V(Byte-Pair Visual Encoding), 让模型第一次能以“语言的逻辑”来理解图像。

ICCV 2025 Highlight | 图像也能“说话”:BPE-V让视觉模型拥有语言的思维方式图2

一、为什么视觉和语言一直“说不到一起去”

多模态人工智能的核心目标,是让模型在图像、文本、语音之间实现自然的融合。 然而,融合并不意味着简单地拼接。

语言是离散的,图像是连续的。 语言模型处理的是 token——一系列符号单元; 而视觉模型接收的是像素矩阵——没有边界、没有语法。

这就像让一个诗人去理解油画的笔触。 两者表达的世界观不同,逻辑不同,甚至“思维的单位”也不同。

过去几年,研究者们尝试了两条路径:

  • 连续特征派:通过视觉编码器将图像变为向量特征,再送入语言模型。 → 优点:保留细节丰富;缺点:不兼容、计算重、容易产生幻觉。
  • 离散量化派:用 VQ-GAN 等方法把图像离散化为视觉 token。 → 优点:与语言统一;缺点:语义信息被稀释,理解能力有限。

换句话说,前者看得太“细”,后者看得太“浅”。 AI 想真正理解图像,需要一种能兼顾细节与语义的表示方式。

这正是 BPE-V 想要解决的问题。

二、灵感:把视觉当作语言来“分词”

BPE(Byte-Pair Encoding)是自然语言处理里的“老功臣”。 它通过统计文本中高频共现的字符对,不断合并形成更大的“子词”, 最终让模型拥有一个既紧凑又语义丰富的词表。

BPE-V 的发明者提出:

如果图像也能“分词”,模型是否就能像读文字一样读图?

他们把这一想法变为现实:

  1. 首先,将图像通过 VQ-GAN 划分成基础视觉 token,类似语言中的“字母”;
  2. 然后,统计哪些 token 经常一同出现且位置固定,将它们合并为更复杂的“视觉词”;
  3. 经过多轮迭代,模型形成一个从纹理到物体再到场景的视觉词汇表
ICCV 2025 Highlight | 图像也能“说话”:BPE-V让视觉模型拥有语言的思维方式图3

举个例子: “眼睛”与“鼻子”总是出现在相邻区域,算法就把它们合并为“脸部”; “轮胎”和“车身”共现频繁,最终演化为“汽车”。

视觉信息因此从像素走向了语义。 图像,开始拥有自己的“语言结构”。

三、Priority-Guided机制:让视觉分词更“聪明”

但事情没那么简单。 如果只靠频率合并,模型可能会学出很多“伪组合”—— 比如草地与天空、路面与建筑,它们经常一起出现,却并非语义整体。

BPE-V 在此引入了一个关键设计:Priority-Guided Encoding(优先引导机制)

它不仅考虑出现频率,还计算空间一致性。 换句话说,模型在决定“哪些视觉块要合并”时,会参考它们的相对位置是否稳定。

合并得分被定义为:

P(a,b) = F(a,b) + α·S(a,b)

其中 F 代表共现频率,S 衡量空间关系的一致性。 只有同时满足“高频共现 + 空间稳定”的 token 对,才有资格形成新词。

ICCV 2025 Highlight | 图像也能“说话”:BPE-V让视觉模型拥有语言的思维方式图4

这样一来,BPE-V 生成的视觉词汇不再是随机拼接的“色块”, 而是真正具备结构意义的视觉概念。

四、让模型学会“读图”:三阶段课程学习

拥有词汇表只是第一步,模型还得学会如何使用这些新词汇。 研究团队因此提出了一个三阶段课程式训练策略, 让模型从“识字”到“读懂”,逐步掌握多模态语义。

  1. 词嵌入对齐阶段: 冻结语言模型,仅训练视觉 token 嵌入层,确保两种模态在语义空间中接近。
  2. 选择性解冻阶段: 打开 Transformer 的前几层,让模型开始学习视觉与语言的互动逻辑。
  3. 全模型优化阶段: 在多模态任务上端到端训练,使模型具备完整的视觉推理和语言表达能力。

这种分层训练方式,与 BPE-V 的层级结构天然契合。 模型不再被迫同时学习“看”和“说”, 而是像人类一样,循序渐进地理解视觉世界。

ICCV 2025 Highlight | 图像也能“说话”:BPE-V让视觉模型拥有语言的思维方式图5

五、实验结果:语言与视觉的边界被模糊了

研究团队基于 BPE-V 训练了 Being-VL 系列模型, 并在多个基准上进行验证。

结果显示:

  • Being-VL-0.5+ 在 VQAv2 上取得 80.6 分,在 MMBench 上达到 72.1 分;
  • 相比此前的离散视觉模型,性能提升显著;
  • 甚至在某些任务上逼近连续特征模型(如 LLaVA-Next、VILA-1.5)。
ICCV 2025 Highlight | 图像也能“说话”:BPE-V让视觉模型拥有语言的思维方式图6

更令人关注的是,模型的嵌入空间出现了一个惊人的变化: 视觉 token 与文本 token 的权重分布趋于一致。 换句话说,BPE-V 让图像与文字在同一语义平面上对齐

语言和视觉,终于在同一个句法系统中交流。

六、通向统一智能的下一步

BPE-V 的意义不仅在于性能突破,更在于它重新定义了“模态统一”的方式。

过去,我们试图让语言去理解图像; 而 BPE-V 的思路是——

让图像变成语言的一部分。

通过构建“视觉词典”,BPE-V 将视觉信息离散化、符号化, 让 Transformer 能以相同的 token 流同时处理图像与文本。

这种机制天然具有可扩展性。 无论是视频、音频,还是三维场景, 只要能被“分词”,就能进入同一个语义框架。

这也意味着: AI 的多模态统一,不再是技术堆叠的结果, 而是语言化理解的延伸。

ICCV 2025 Highlight | 图像也能“说话”:BPE-V让视觉模型拥有语言的思维方式图7

七、结语:理解,从“说同一种语言”开始

语言让人类能够描述世界, 而 BPE-V 让机器也拥有了类似的能力—— 用“语言的单位”去理解视觉的内容。

从像素到符号,从统计到语义, BPE-V 打通了语言与视觉的最后一公里。

未来,当图像、声音与文字都能共享同一词汇表, 人工智能或许就真正拥有了统一的思维方式。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉1V1论文辅导来啦!

ICCV 2025 Highlight | 图像也能“说话”:BPE-V让视觉模型拥有语言的思维方式图8

3D视觉学习圈子

星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

ICCV 2025 Highlight | 图像也能“说话”:BPE-V让视觉模型拥有语言的思维方式图9

3D视觉全栈学习课程:www.3dcver.com

ICCV 2025 Highlight | 图像也能“说话”:BPE-V让视觉模型拥有语言的思维方式图10

3D视觉交流群成立啦,微信:cv3d001

ICCV 2025 Highlight | 图像也能“说话”:BPE-V让视觉模型拥有语言的思维方式图11

添加微信:cv3d001,备注:方向+单位,邀你入3D视觉交流群!

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IC
more
新机:小米17 Fold曝光;一加新机搭载7800mAh电池+120W快充;荣耀Magic8全系入网;真我GT8曝光
OpenAI 卖货做视频,Anthropic 专心写代码,谁能赢?
南芯科技连发车规MCU PMIC和SBC,攻坚ASIL-D安全与多场景适配
节前放大招!DeepSeek-V3.2-Exp降价50%,智谱、Anthropic发新模型争锋
Sigtica×飞桨文心:以AI赋能法律研究,打造智能文档新范式
谷歌强在哪里?理解物理世界的VLM大脑,会思考的VLA和惊艳的本体迁移能力 | Google Robotics 1.5有哪些亮点
二手机|1TB 顶配才这个价?六边形战士荣耀 Magic6 Pro,无短板体验
荣耀Magic8 Pro:变了又好像没变
功率半导体聚焦:东芝SiC技术亮相PCIM Asia,引领高效能源转换
【更名公告】Xbot知识库 改为 Xbotics具身智能实验室
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号