准确率97%,将大脑信号转化为语音,新型脑机接口让失语者「说话」

编辑 | 萝卜皮肌萎缩性脊髓侧索硬化症又称渐冻人症(ALS),会影响控制全身运动的神经细胞。这种疾病会导致患者逐渐丧失站立、行走和使用双手的能力。它还会导致患者失去对说话肌肉的控制,从而无法进行语言表达。加州大学戴维斯分校的研究团队开发了一项新技术旨在帮助因瘫痪或 ALS 等神经系统疾病而无法说话的人恢复交流能力。它可以解读用户说话时的脑信号,并将其转换成计算机大声朗读的文本。其准确率高达 97%,是同类系统中最准确的。该团队的研究人员在一名因 ALS 而导致语言能力严重受损的男子的大脑中植入了传感器。这名男子在启

图片

编辑 | 萝卜皮

肌萎缩性脊髓侧索硬化症又称渐冻人症(ALS),会影响控制全身运动的神经细胞。这种疾病会导致患者逐渐丧失站立、行走和使用双手的能力。它还会导致患者失去对说话肌肉的控制,从而无法进行语言表达。

加州大学戴维斯分校的研究团队开发了一项新技术旨在帮助因瘫痪或 ALS 等神经系统疾病而无法说话的人恢复交流能力。它可以解读用户说话时的脑信号,并将其转换成计算机大声朗读的文本。其准确率高达 97%,是同类系统中最准确的。

该团队的研究人员在一名因 ALS 而导致语言能力严重受损的男子的大脑中植入了传感器。这名男子在启动该系统后几分钟内就能传达自己想要说的话。

这项研究的主要负责人之一,加州大学戴维斯分校的 David Brandman 表示:「我们的 BCI 技术帮助一名瘫痪男子与朋友、家人和护理人员进行交流。我们的论文展示了迄今为止最准确的语音神经假体(设备)。」

该研究以「An Accurate and Rapidly Calibrating Speech Neuroprosthesis」为题,于 2024 年 8 月 14 日发布在《The New England Journal of Medicine》。

图片

脑机接口(BCI)可将瘫痪患者试图说话时产生的皮层活动转化为计算机屏幕上的文本,从而帮助瘫痪患者进行交流。脑机接口的交流一直受到大量训练要求和准确性限制的限制。

加州大学戴维斯分校的研究团队开发了新型 BCI 设备,能将大脑信号转化为语音。

为了开发该系统,研究小组让患有渐冻人症的 45 岁男子 Casey Harrell 参与了 BrainGate 临床试验。入组时,Harrell 手脚无力(四肢瘫痪)。他所能表达的语言非常难懂(存在构音障碍) ,需要特别熟悉他的人帮他翻译。

2023 年 7 月,Brandman 给病人植入了研究性 BCI 设备。他将四个微电极阵列植入左侧前脑回,这是一个负责协调语言的大脑区域。这些阵列旨在记录来自 256 个皮层电极的大脑活动。

图片

图示:电极位置和语音解码设置。(来源:论文)

「我们实际上是在检测它们试图活动肌肉和说话的情况。」同样参与这项研究的神经外科系助理教授 Sergey Stavisky 解释说,「我们正在记录大脑试图向肌肉发送这些指令的部分。我们基本上是在监听,然后将这些大脑活动模式转化为音素——就像音节或语言单位——然后再转化为他们想说的话。」

更快的培训,更好的效果

虽然最近 BCI 技术不断进步,但实现交流的工作进展缓慢,而且容易出错。这是因为解释大脑信号的机器学习程序需要大量时间和数据才能完成。

「以前的语音 BCI 系统经常出现单词错误。这使得用户难以被持续理解,成为沟通的障碍。」Brandman 解释道,「我们的目标是开发一种系统,让人们在想说话的时候都能被理解。」

Harrell 在提示和自发对话环境中都使用了该系统。在这两种情况下,语音解码都是实时进行的,并通过持续的系统更新来保持准确工作。

解码后的文字显示在屏幕上。令人惊奇的是,这些单词是用 Harrell 患 ALS 之前的声音朗读出来的。这些声音是用 Harrell 患渐冻人症前的声音样本通过训练软件合成的。

准确率97%,将大脑信号转化为语音,新型脑机接口让失语者「说话」

视频:新型 BCI 技术相关介绍。(来源:网络)

视频链接:https://mp.weixin.qq.com/s/FFqhcGa4YHJfXH0p7rtaZQ

在第一次语音数据训练中,该系统用了 30 分钟就达到了 99.6% 的单词准确率,此时词汇量为 50 个。

「我们第一次试用该系统时,他高兴得哭了,因为屏幕上出现了他想说的正确单词。我们都哭了。」Stavisky 说。

在第二次训练中,潜在词汇量增加到了 125000 个单词。只需增加 1.4 小时的训练数据,BCI 就能在词汇量大幅增加的情况下达到 90.2% 的单词准确率。

通过进一步的训练数据,BCI 在手术植入后的 8.4 个月内维持了 97.5% 的准确率,Harrell 使用它以每分钟大约 32 个字的速度进行自定节奏的对话,累计时间超过 248 小时。

图片

图示:语音解码性能。(来源:论文)

对 ALS 患者交流的变革性影响

「目前,我们可以在大约 97% 的情况下正确解码Harrell想要说的话,这比许多试图解读人的声音的市售智能手机应用软件都要好。」Brandman 说,「这项技术具有变革性,因为它为那些想说话却无法说话的人带来了希望。我希望像这种语音 BCI 这样的技术能够帮助未来的病人,使他们能够与家人、朋友流畅地交谈。」

图片

图示:对话模式用户界面。(来源:论文)

「无法沟通是一件非常令人沮丧和打击士气的事情。就好像你被困住了一样。」Harrell 说,「像这样的技术将帮助人们重返生活和社会」。

论文的第一作者 Nicholas S. Card 说:「看到 Harrell 通过这项技术恢复了与家人和朋友交谈的能力,我们感到无比欣慰。」

「Harrell 和其他 BrainGate 参与者确实非同凡响。他们参加这些早期临床试验值得我们给予高度赞扬。他们这样做并不是希望获得任何个人利益,而是为了帮助我们开发一种系统,让其他瘫痪患者恢复交流和行动能力。」BrainGate 试验发起人兼研究员 Leigh Hochberg 说。

论文链接:https://www.nejm.org/doi/full/10.1056/NEJMoa2314132

相关内容:

https://www.cnbeta.com.tw/articles/science/1442257.htm

https://www.nytimes.com/2024/08/14/health/als-ai-brain-implants.html

https://www.brown.edu/news/2024-08-14/bci-speak-again

https://www.ucdavis.edu/news/brain-computer-interface-allows-man-als-speak

相关资讯

AI 提高无创脑机接口性能,卡内基梅隆大学贺斌团队的新范式

编辑 | 萝卜皮脑机接口(BCI)有可能帮助恢复患者的运动功能,并通过提供大脑与机器人或其他设备的直接连接,使普通大众受益。在最新的工作中,卡内基·梅隆大学(Carnegie Mellon University)贺斌教授团队开发了一种使用基于深度学习 (DL) 的解码器来连续跟踪 BCI 系统的范例,并通过广泛的在线实验展示了其功能。该团队还研究了不同数量的训练数据如何影响 DL 性能,并收集了超过 150 h 的 BCI 数据,这些数据可用于训练新模型。研究结果为开发基于深度学习的 BCI 解码器提供了重要范式,

大脑的思考是量子计算,这一猜测有了新证据

几十年来,科学家们一直在探索人脑的计算和思考机制。但人脑的构成太过复杂,包含几百亿个神经元,相当于上万亿块芯片,我们很难一探究竟。

13万个注释神经元,5300万个突触,普林斯顿大学等发布首个完整「成年果蝇」大脑连接组

这将进一步推动科学家们探索在 3D 环境中对果蝇大脑进行精确的计算机模拟。