锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

工程师将大脑信号直接转化为语音

时间:2022-09-09 06:30:00 016lf连接器

ca9c9378c3692e9e0861fa7f313263b0.png

哥伦比亚大学的神经工程师创造了将思想转化为可理解和可识别的语言的系统。

通过监测一个人的大脑活动,该技术可以以前所未有的清晰度重建一个人所听到的单词。这一突破利用了语音合成器和人工智能的力量,可能会带来计算机直接与大脑交流的新方法。它还可以帮助那些不能说话的人如肌萎缩侧索硬化症) (ALS) 或中风康复者)重新获得与外界沟通的能力。

发表了这些发现《Scientific Reports》上。

哥伦比亚大学的研究人员Nima Mesgarani 医生说:我们的声音有助于将我们与朋友、家人和周围的世界联系起来,这就是为什么因受伤或疾病而失去声音的力量如此具有破坏性。通过这项研究,我们可以恢复这种力量。我们已经证明,任何听众都可以破译和理解这些人的想法,只要有合适的技术。

几十年的研究表明,当人们说话时,大脑中会有明显的活动模式——甚至想象。当我们听某人说话或想象时,也会有不同的信号模式(但可识别)。试图记录和解码这些模式的专家认为,在未来,思想不需要隐藏在大脑中,而是可以随意翻译成语言。

事实证明,实现这一壮举具有很大的挑战性。Mesgarani 博士和其他人解码大脑信号的早期努力主要集中在分析频谱图的简单计算机模型上。频谱图是声音频率的视觉表

但是这种方法不能产生任何类似于理解语音的东西,Mesgarani 医生的团队转向使用声码器,这是一种计算机算法,可以在训练人们说话的录音后合成语音。

语音重建方法的示意图

上图(A) 受试者听自然语音的句子。然后用听者听觉皮层中的诱发神经活动群重建语音刺激。示例对象中的响应电极显示为红色。从神经数据中提取高频带和低频带。采用两种回归模型和两种语音表征,产生线性回归听觉频谱图(浅蓝色)、线性回归声码器(深蓝色)、DNN 听觉频谱图和 DNN 到声码器(深红色)。

(B)所有模型的输入都是低频的 (LF) 与高伽马包络 (HG) 的 300 ms 滑动窗口。DNN 结构由两个模块组成:特征提取和特征求和网络。提取听觉频谱图重建的特征是全连接神经网络(FCN)。特征提取网络由声码器重建FCN与网络局部连接(LCN)连接而成。特征求和网络是一种双层全连接神经网络(FCN)。

(C) 声码器参数包括频谱包络、基频 (f0)、声音和非周期性(共同) 516 个参数)。使用瓶颈层的自动编码器 516 声码器参数减少到 256 个。然后将bottleneck特征被用作重建算法的目标。声码器参数由自动编码器网络的解码器部分重建bottleneck计算特征。

Mesgarani 医生说:这与 Amazon Echo 和 Apple Siri 回答我们问题的技术是一样的。

教声码器解读大脑活动,Mesgarani博士和医学博士Ashesh Dinesh Mehta合作,他是Northwell Health Physician Partners Neuroscience Institute 神经外科医生,也是这篇论文的合作者。Mehta治疗癫痫的医生。

“与 Mehta 与医生合作,我们要求接受脑部手术的癫痫患者听不同人说的话,同时测量大脑活动的模式,Mesgarani 医生说:这些神经模式训练了声码器。

接下来,研究人员让这些患者听到0到9之间的数字声音,同时记录大脑信号,然后通过声码器播放。声码器由神经网络分析和清理这些信号产生的声音。神经网络是模仿生物大脑神经元结构的人工智能。

最终的结果是,一个听起来像机器人的声音背诵了一系列数字。为了测试录音的准确性,Mesgarani 医生和他的团队要求每个人听录音,并报告他们听到的内容。

深度神经网络架构 (A)图的顶部是语音样本的原始听觉频谱图。听觉频谱图的重建如下所示。(B)清音原始(上)和四种重建模型(t =1.4秒)和浊音(t = 1.15秒)频带幅值功率(在A中虚线显示)。

Mesgarani医生说:我们发现人们可以在75%的时间内理解和重复这些声音,这远远超过了以前的任何尝试。当将新录音与早期基于地图的尝试进行比较时,清晰度的提高尤为明显。敏感的声码器和强大的神经网络以惊人的准确性代表了患者最初听到的声音。

Mesgarani 医生和他的团队计划测试更复杂的单词和句子,他们想测试一个人说话或想象的大脑信号。最后,他们希望他们的系统能成为植入物的一部分,类似于一些癫痫患者佩戴的植入物,直接将佩戴者的想法转化为文本。

不同模型的客观易懂评分。(A)所有基于四种模型的受试者的平均水平ESTOI分数。(B)电极的覆盖范围和位置,以及五名受试者ESTOI评分。在所有受试者中,DNN声码器的ESTOI得分高于其他模型。

Mesgarani医生说:在这种情况下,如果佩戴者认为‘我需要一杯水’,我们的系统可以接收这个想法产生的大脑信号,并将其转换为合成的单词。这将改变游戏规则。它将给任何因受伤或疾病而失去说话能力的人一个机会,重新联系周围的世界。

参考

Hassan Akbari, Bahar Khalighinejad, Jose L. Herrero, Ashesh D. Mehta, Nima Mesgarani.Towards reconstructing intelligible speech from the human auditory cortex.Scientific Reports, 2019; 9 (1) DOI:10.1038/s41598-018-37359-z

https://www.sciencedaily.com/releases/2019/01/190129081919.htm

https://zuckermaninstitute.columbia.edu/columbia-engineers-translate-brain-signals-directly-speech


仅用于学术交流,不用于商业行为。如有侵权和疑问,请在后台留言,管理员立即删除侵权!


更多阅读


脑-机交互运动训练的神经反馈方法及康复应用

探索研究人员gaze fixation对基于运动想象的脑机接口性能的影响

Nature子刊:Neuropixels 大规模神经记录探针单神经元分辨率

卷起来了!DeepMind发布与普通程序员相当AlphaCode,

同日OpenAI神经数学证书赢得了奥数

打破纪录!刷新记录人脑信号的分辨率

科技与人类的界限在哪里,基因编辑与脑机接口?

仿生眼植入物使英国盲人患者能够检测视觉信号

Nature子刊 | 重大突破:解码内心表达

2021年脑机接口重大事件总结进展



祝你一整天快乐!

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章