Nature发文 | 新型脑机接口 (BCI) 可即时合成语音

资讯配图

一项新研究发现，通过分析神经信号，脑机接口 (BCI) 现在几乎可以即时合成因神经退行性疾病而失去声音的患者的语音。

研究人员提醒说，这种能够帮助瘫痪患者恢复语言能力的设备要应用于日常交流仍需很长时间。尽管如此，加州大学戴维斯分校神经义肢实验室的项目科学家 Maitreyee Wairagkar 表示，他们希望这项研究“能够开辟一条进一步改进这些系统的途径——例如，通过技术转让给产业”。

脑机接口的一个主要潜在应用是帮助因疾病或受伤而无法说话的人恢复沟通能力。例如，科学家已经开发出多种脑机接口，可以帮助将神经信号转换为文本。

然而，单靠文本无法捕捉人类语音的许多关键方面，例如有助于传达含义的语调。此外，Wairagkar 表示，基于文本的交流速度很慢。

现在，研究人员开发了一种名为“脑转语音”的神经假体，可以实时将神经活动解码为声音。他们于 6 月 11 日在《自然》杂志上详细介绍了他们的研究成果。

“因神经系统疾病而失去说话能力是毁灭性的，”Wairagkar 说。“开发一种能够绕过受损神经系统通路来恢复说话能力的技术，将对失语人士的生活产生重大影响。”

用于言语恢复的神经映射

新的脑机接口 (BCI) 使用四个微电极阵列来映射神经活动。科学家们总共在三个大脑区域放置了 256 个微电极阵列，其中最主要的是腹侧中央前回，它在控制说话肌肉方面发挥着关键作用。

资讯配图

“这项技术并不能‘读懂’或‘读懂内心的想法’，”Wairagkar 说。 “我们从控制言语肌肉的大脑区域进行记录。因此，系统仅在参与者主动尝试说话时才会发出声音。”

研究人员将脑机接口（BCI）植入一位45岁的肌萎缩侧索硬化症（ALS）志愿者体内，ALS是一种神经退行性疾病，也称为卢伽雷氏症。虽然这位志愿者仍然可以发出声音，但在植入BCI之前的几年里，他一直无法独自发出清晰的语音。

神经假体记录了患者尝试大声朗读屏幕上的句子时产生的神经活动。随后，科学家们利用这些数据训练了一个深度学习人工智能模型，使其能够生成患者想要表达的语音。

资讯配图

研究人员还利用患者患病前的录音训练了一个语音克隆人工智能模型，以便BCI能够合成患者患病前的声音。研究指出，患者表示，听到合成的声音“让我感到快乐，感觉就像我真实的声音一样”。

在实验中，科学家发现脑机接口 (BCI) 能够检测到预期语音语调的关键方面。他们让患者尝试将一组句子以陈述句（音调不变）或疑问句（句末音调上升）的形式说出来。他们还让患者通过改变音调来强调“我从未说过她偷了我的钱”这句话中七个单词中的一个。（这个句子有七种不同的含义，取决于强调哪个单词。）这些测试表明，在问题结尾和强调单词之前，神经活动有所增强。反过来，这使得患者能够控制自己的脑机接口 (BCI) 声音，从而能够提出问题、强调句子中的特定单词或唱出三音调旋律。

“我们说什么，怎么说也同样重要，”Wairagkar 说。“语调有助于我们有效地沟通。”

总而言之，新的脑机接口 (BCI) 可以获取神经信号并以 25 毫秒的延迟发出声音，从而实现近乎即时的语音合成，Wairagkar 说道。事实证明，BCI 足够灵活，能够说出自创的假词，以及诸如“啊”、“呃”、“哦”和“嗯”之类的感叹词。

最终的声音通常清晰易懂，但并非始终如一。在测试中，人类听众需要转录 BCI 的话语，他们理解患者话语的准确率约为 56%，而未使用 BCI 时仅为 3%。

“我们并非声称这套系统已经准备好供失去说话能力的人使用，并进行对话，”Wairagkar 说道。“相反，我们只是展示了当前 BCI 技术所能实现的概念验证。”

未来，科学家们计划提升该设备的准确性，例如，增加电极数量和改进AI模型。他们还希望脑机接口公司能够开展临床试验，将这项技术融入其中。“目前尚不清楚这种脑机接口是否适用于完全闭锁（locked in）的人”——也就是说，除了眼球运动和眨眼之外，几乎完全瘫痪，Wairagkar补充道。

另一个有趣的研究方向是研究这种语音脑机接口是否能帮助语言障碍患者，例如失语症患者。“我们目前的目标患者群体是由于肌肉麻痹而无法说话，”Wairagkar说道。“然而，他们产生语言和认知的能力仍然完好无损。” 她指出，与此相反，未来的研究可能会研究如何恢复大脑中负责说话的区域受损或因残疾而自幼无法学习说话的人的语言能力。

仅用于学术分享，若侵权请留言，即时删侵！

欢迎加入脑机接口AI星球

获取更多脑机接口+AI等领域的知识和资源。

资讯配图