
Brain-to-Text©Ledge.ai
对于瘫痪、失语等无法正常发声的人群,语音脑机接口(Speech BCI)是重建语言沟通的关键技术。这类设备能够将大脑中想象的语音信号转化为文字,但解码误差长期制约着实际使用效果。近日,一支由多所欧美顶尖高校联合组建的科研团队取得重要突破,验证了深度集成模型在实时语音脑机接口中的应用价值,大幅降低文字错误率,并推出轻量化优化方案,为技术临床落地铺路。该研究发布于bioRxiv预印本平台,补齐了深度集成模型实时应用的研究短板。

脑转文本(brain-to-text)解码技术最新研究进展 ©作者团队/bioRxiv
本次研究依托BrainGate2(临床试验编号:NCT0091204)大型植入式脑机接口临床试验开展,该项目是全球知名的神经接口长期研究项目,核心团队汇聚了斯坦福大学、加州大学戴维斯分校、埃默里大学、佐治亚理工学院、布朗大学以及哈佛医学院附属麻省总医院等十余所北美知名高校与医疗机构的学者。研究成员涵盖神经外科、计算机科学、生物医学工程等多个领域,主创Seonghyun Yoon来自斯坦福大学神经外科,Francis R. Willett与Jaimie M. Henderson担任共同资深作者。此外,项目核心参与者Leigh R. Hochberg同时也是植入式脑机接口协作社区(iBCI-CC)的核心发起人,进一步强化了研究与行业生态的联动。
集成十个解码器的在线实时测试
错误率降至26%
在此前各类脑机接口解码竞赛中,深度集成方法已经展现出亮眼表现。该方法整合多个独立训练解码器的预测结果,相比单一模型能显著提升解码准确率。不过过去的研究仅停留在离线测试阶段,不仅需要庞大的算力支持,在真实实时场景中的表现、以及临床环境下的适配性都缺乏验证。本次研究首次开展深度集成方法的闭环实时测试,选用植入双侧皮层微电极阵列的受试者开展实验,在12.5万词的大容量词汇库任务中完成全面性能检验。
研究团队搭建基于十个基础解码器的深度集成语音脑机接口,对一名渐冻症受试者开展实测,数据显示系统单词错误率从33.7%降至26.0%(行业参考标准:单词错误率 25%为基础可用标准,5%为理想实用标准)。受试者全程保持每分钟65.4个单词的沟通速度,运算并未拖慢交流效率。研究人员还离线复现实验,在相同语句下再次验证,单词错误率降至26.8%,双重测试印证了深度集成模型在实时场景下的稳定性。

集成语音脑机接口的实现与性能 ©作者团队/bioRxiv
系统延迟、算力短板优化以及轻量化
端到端延迟缩短至2.09秒
团队还针对系统延迟与算力短板展开优化。初代集成模型在用户结束指令后,平均延迟5.25秒输出文本,大语言模型融合、神经数据读取是主要耗时环节。研究人员通过搭建云端中继节点、预编译计算图、迭代语言模型架构等方式升级系统,优化后端到端延迟缩短至2.09秒,即便在网络条件较差的临床环境中,系统也能稳定运行,实用性大幅提升。
研究人员利用三名受试者累计67.7小时的神经活动数据开展泛化性测试,覆盖不同电极布局、基线错误率、训练数据量等多元工况。四组不同测试条件下,深度集成模型的单词错误率相对降幅介于23.1%至35.0%之间,证明该技术不会因受试者身体状况、电极植入位置差异而失效,具备广泛的适配能力。
考虑到临床便携式设备算力有限的现实问题,团队创新性提出伪集成轻量化方案。该方案摒弃多解码器并行模式,仅依靠单个基础解码器,通过向神经数据添加高斯白噪声生成多组预测结果,再借助大语言模型整合输出。实测中该方案错误率降幅在9.4%至15.7%之间,虽略逊于完整版集成模型,但算力开销大幅降低,完美适配低功耗设备。

不同受试者、阵列配置与运行工况下深度集成方法的有效性 ©作者团队/bioRxiv
团队还对比了不同结果融合策略与模型规模的影响。传统ROVER投票算法和多款大语言模型均可实现结果融合,且模型性能越强,解码精度越高。同时实验发现,解码器数量增加会持续提升准确率,整体呈对数线性趋势,但增益会逐步收窄,研发人员可根据设备算力灵活配置模型规模,平衡性能与成本。
目前该研究仍存在局限,实时测试仅针对单一受试者,系统长期运行的稳定性还需持续观测。但综合来看,深度集成模型搭配云端部署、轻量化两套技术方案,构建起高低搭配的应用体系,再加上iBCI-CC搭建的行业协作框架,全方位推动语音脑机接口走出实验室。这项成果不仅提升了解码技术的实用价值,也为全球植入式脑机接口的规范化发展提供了重要参考,有望帮助更多沟通障碍人群重获独立交流的能力。
关于美国植入式脑机接口协作社区(iBCI-CC)
“竞争前协作”
这项研究的背后依托着植入式脑机接口协作社区(iBCI-CC)的行业支撑。该组织由麻省总医院牵头,于2024年3月正式成立,是美国FDA认可的首个神经科学领域协作社区,集结了科研人员、临床医生、设备厂商、伦理学者、监管机构及患者群体。该组织秉持“竞争前协作”理念,让原本存在竞争关系的企业、机构携手攻克共性难题,统一临床评价标准与监管规范,加速植入式脑机接口从实验室走向临床。社区下设七大专项工作组,聚焦用户需求、临床标准、设备互通等关键议题,为本次研究的临床转化提供了规范指引。
iBCI-CC的成立源于行业发展的现实困境,当下植入式脑机接口面临数据标准不一、设备兼容性差、医保覆盖模糊、伦理争议等多重阻碍。该社区搭建起跨领域沟通平台,联合Blackrock Neurotech、Neuralink等多家行业企业,以及渐冻症公益组织等患者机构,打通从实验室到临床的全链条。本次研究的多位核心成员均深度参与社区工作,研究成果也成为iBCI-CC推进临床标准制定的重要参考案例。

iBCI-CC创始机构 ©iBCI-CC
本文利益相关方
Axoft、Neuralink、Neurobionics、Paradromics、Precision Neuro、Synchron、Reach Neuro、Blackrock Neurotech、Sonera、Meta(Reality Labs)、Speak Your Mind基金会
论文信息
标题:Neural decoding of speech using deep neural ensembles
期刊:bioRxiv预印本平台
发表时间:2026/6/4
DOI:https://doi.org/10.64898/2026.06.02.729705
作者团队:见下图

声明
1.本文内容、图片来自原论文及网络,详情可参考相关链接,如有侵权请告知删除。2.本公众号分享的医疗资讯仅供参考,不应被视为医疗建议。在做出任何与健康相关的决定或治疗计划之前,务必咨询合格的医疗专业人员。本文所呈现的信息基于当前的研究和专家观点,随着新证据的出现,这些信息可能会有所变化。
了解更多脑机接口行业资讯
扫码加入“脑机接口”知识星球
