利用先进技术读取脑部活动并非新概念。然而,大多数技术都侧重于识别与人所见或所想的物体或动作相关的单个词语,或将与口语词汇相对应的脑信号进行匹配。一些方法使用了描述数据库或深度神经网络,但这些方法受限于数据库的词汇覆盖范围,或引入了大脑中不存在的信息。国内脑机接口技术生成对复杂视觉感知或思维的详细、结构化描述仍然是一项挑战。

最近发表在《Science Advances》上的一项研究采用了一种新的方法。参与该研究的研究人员开发了一种他们称之为“心智描述”的技术,该技术使用迭代优化过程,其中掩码语言模型(MLM)通过将文本特征与大脑解码的特征进行对齐来生成文本描述。
该技术还结合了线性模型,这些模型经过训练,可以使用功能磁共振成像(fMRI)的脑部活动来解码来自深度语言模型的语义特征。最终结果是对参与者大脑中看到的内容进行详细的文本描述。
基于人类感知生成视频字幕
在实验的第一部分,六名受试者观看了 2196 个短视频,同时使用功能磁共振成像 (fMRI) 扫描他们的大脑活动。这些视频包含各种随机的物体、场景、动作和事件,六名受试者包括以日语为母语者和非英语母语者。

心智字幕生成。我们的方法分为两个阶段。(A) 首先,我们使用一个预先训练好的线性语言模型(冻结模型)训练线性解码模型,将受试者观看视频时测量的全脑功能磁共振成像(fMRI)活动解码为视频字幕的语义特征。(B) 然后,我们使用这些模型解码由新的视频刺激或基于回忆的视频心理意象诱发的脑活动,并通过词语替换和插值,将候选描述的特征与脑解码特征进行迭代优化,同时利用另一个预先训练好的掩码语言模型(MLM;冻结模型)。
这些视频此前已由其他观众进行过类似众包的文本标注,并由预训练的语言模型 DeBERTa-large 进行处理,提取特定特征。这些特征与大脑活动相匹配,并通过名为 RoBERTa-large 的多语言语言模型 (MLM) 的迭代过程生成文本。
“最初,视频描述零散且缺乏清晰的含义。然而,通过迭代优化,这些描述自然而然地演化成一个连贯的结构,并有效地捕捉了所观看视频的关键方面。值得注意的是,最终的描述准确地反映了视频内容,包括观看事件的动态变化。此外,即使未能正确识别特定物体,描述仍然成功地传达了多个物体之间的互动,”研究作者解释道。

随后,研究团队将生成的描述与不同数量的候选视频的正确和错误字幕进行比较,以确定准确率,结果约为 50%。他们指出,这一准确率超过了其他现有方法,并预示着未来改进的潜力。
读取记忆
之后,研究人员让这六名参与者在功能磁共振成像(fMRI)扫描下回忆视频,以测试该方法读取记忆(而非视觉体验)的能力。实验的这一部分结果也令人鼓舞。
“分析成功生成了能够准确反映回忆视频内容的描述,尽管准确率因人而异。这些描述与回忆视频的字幕更为相似,而非与无关内容相似。熟练的受试者在识别100个候选视频中的回忆视频时,准确率接近40%。”研究作者写道。

生成浏览内容描述
对于语言能力减弱或丧失的人,例如中风患者,这项新技术最终可能成为恢复沟通的一种途径。该系统已被证明能够捕捉更深层次的含义和关系,而不仅仅是简单的词语联想,这使得这些患者能够比其他一些脑机接口方法更好地恢复沟通能力。不过,在达到这一目标之前,还需要进一步优化。
伦理考量和未来方向
尽管能够读取人类思想的脑电波字幕设备有一些较为积极的应用,但人们对于隐私和脑电波转文字技术的潜在滥用问题,无疑存在合理的担忧。
参与这项研究的研究人员指出,在使用读心术时,知情同意仍然是一项重要的伦理考量。在这些技术得到更广泛的应用之前,关于心理隐私和脑机接口未来发展的重要问题亟待解决。
尽管如此,这项研究为科学研究大脑如何表征复杂体验提供了一种新的工具,并可能造福于非语言人士。
研究作者写道:“我们的方法兼顾了可解释性、普适性和性能,建立了一个透明的框架,用于将非语言思维解码为语言,并为系统地研究结构化语义如何在人脑中编码铺平了道路。”