大脑如何理解视觉信息?LLM嵌入实现场景语义的可逆解码

ScienceAI 2025-08-30 12:00

将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

资讯配图


资讯配图

编辑丨%

不知诸位是否好奇过:当我们看一张复杂的照片,脑子里到底「想」了些什么?是单个物体的名字排列,还是一段连贯的、像句子一样的「场景理解」?

这些复杂的、高级的语义维度长久以来缺乏一个统一、可量化的表征格式。美国明尼苏达大学(University of Minnesota)与加拿大蒙特利尔大学(Université de Montréal)等提出了一个有趣的方法:把人类为图片写的自然语言说明(caption)送进 LLM ,取其句子嵌入(embedding),所得的向量应该能很好地对应人脑在看同一图像时的高阶视觉表征(higher-level visual cortex)。

他们的研究以「High-level visual representations in the human brain are aligned with large language models」为题,于 2025 年 8 月 7 日刊登在《Nature Machine Intelligence》。

资讯配图

论文链接:https://www.nature.com/articles/s42256-025-01072-0

大脑中的思考

为了实现他们的假设,研究者们结合了参与者在观看数千幅自然场景时收集的功能性磁共振成像(fMRI)数据,以及多变量编码和解码分析和 ANN 建模。

在建模上,他们把这些文本说明输入到基于 Transformer 的句子编码器(以 MPNet 为代表)得到句子嵌入;随后用表征相似性分析(RSA)与线性编码模型,把 LLM 嵌入和视觉皮层的多体素(voxel)激活模式进行比较与预测。

资讯配图

图 1:LLM 嵌入映射捕捉自然场景的视觉响应。

现在有了语言表征与脑表征,需要关注的就是:这俩之间到底能达到多高的匹配程度?

分析显示,句子级嵌入在高阶视觉皮层(腹侧语义相关区与顶叶等网络)与脑活动之间存在显著相关性(significant correspondence)。也就是说,语言向量不是随便一堆词的叠加,而能捕捉到大脑在编码场景语义时关心的那类信息。

既然如此,研究者们推测,是否就可以通过大脑活动反推出文字描述呢?

信号解码

研究团队进一步训练线性模型,把 fMRI 的多体素模式预测为 LLM 嵌入,并通过最近邻检索的方法把预测嵌入映射回最接近的 caption。结果显示,基于 LLM 嵌入的解码在许多高阶视觉区域上达到了显著的预测质量(并接近参与者间一致性的上限),能够重建出与图像语义相符的描述。

资讯配图

图 2:基于 LLM 的线性预测和脑活动解码。

LLM 表示在表征脑活动方面的成功表明,仅使用简单线性方法从视觉诱发的脑活动中准确推断出参与者所见的文本描述大致可行。为了重建场景描述,研究者们还使用了词典查找方法在一个包含 310 万描述的大语料库上重复测试,并获得了非常准确的参与者所见的文本描述。

经过不同的测试,团队先后确认了 LLMs 的能力是否不仅仅依赖于对象类别信息来与高级视觉皮层表示对齐;哪些方面促使 LLM 嵌入与脑数据一致;图注中词语之间的上下文信息是否关系到 LLM 嵌入与大脑的表征匹配。这些测试均代表着 LLMs 可以整合场景描述中重要的复杂信息,以匹配大脑活动。

用语言格式解码视觉

这篇工作把若干条重要线索连成一幅图:首先,它为「高阶视觉表征」的可量化描述提供了一个实用的格式(LLM 嵌入);其次,它展示了跨模态监督(text supervision)对学习接近人脑表征的视觉网络有显著价值;最后,它为临床研究等打开了多条未来路径。

这项研究有点像给视觉科学家和语言科学家办了场联谊会:大家各自把自己最会说的话换成向量,然后惊讶地发现——原来彼此讲的东西差不多。

研究结果表明,LLM 嵌入提供了一种灵活的表示格式,为应用现代分析工具来处理感觉区域中的高度抽象信息开辟了新的研究途径。研究者预测 LLM 嵌入(以及诸如从视觉输入中提取此类嵌入这种 ANN 模型)将为视觉计算神经科学和神经 AI 开辟新的方向并带来新的见解。

人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

欢迎注标星,并点击右下角点赞在看

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号