今天,Facebook和加州大学旧金山分校(UCSF)的研究团队在《Nature Communications》上发表论文,分享了他们的新研究。他们已建成一个脑机接口,能准确解码佩戴设备的人听到和说出词语和对话,实时从大脑信号中解码。这是世界第一个实时解码大脑信号的问答语音的项目,或可用到增强现实眼镜中。
研究人员表示,目前对生成和感知的两部分语言进行解码,准确率超出了他们的想象,分别能达到61%和76%的准确率。
Facebook 与 UCSF 的研究致力于通过实时检测大脑活动中有意“想象”的声音,来帮助神经损伤的患者重新说话。
(Edward Chang教授)
研究人员之一、加州大学旧金山分校神经外科医生Edward Chang表示,这是向神经植入物迈出的重要一步,因为中风,脊髓损伤或其他疾病而失去说话能力的患者,有望因此获得自然交流的能力 。
今年四月,Chang 的团队打造了一个不同的脑机接口,可以直接从大脑信号中解码语音。此次公布的这项工作的目标是提高解码大脑活动的准确性,其基础来源于添加语境。
他们利用植入三名癫痫患者脑部的电极,记录了他们的脑部活动;同时,参与者被要求听一组事先录制的问题,并大声说出他们的回答。
(问(蓝色)答(红色)任务中实时语音解码原理图)
然后,他们利用这些大脑数据来训练机器学习算法。研究人员采用bLSTM(bidi-rectional long short-term memory)循环神经网络来破译ECoG信号表达的运动学表征。接着用另外一个bLSTM解码先前破译的运动学特征中的声学特征。然后,当参与者再次被要求对问题作出回应时,算法仅利用脑部活动来判断参与者是否在听或说,然后尝试解码这些语音。
(左边为实际产生回答,右边是系统解码)
大多数语音解码的工作原理是对一个人在想什么声音做出最佳猜测,在解码过程中可能会被“synthesizer”(合成器)和“fertilizer”(肥料)这类发音相似的单词混淆。但Facebook的新系统增加了上下文信息,通过语境来帮助区分这些单词。
(问题的答案词汇集)
Edward Chang表示,通过添加上下文,这个系统能够用的指定问题和答案解码感知(听到)的语音准确率达到76%,解码产生(口头)的语音准确率达到了61%。
(准确率)
Facebook表示,未来将扩大系统的词汇量,让其能适用在更广泛的领域。
Chang希望尽快为那些不会说话的病人带来有意义的改变。到目前为止,该团队的所有工作都是由能够说话的志愿者完成的,因此团队现在将花费一年的时间与一位失语的参与者一起工作,在计算机屏幕上生成文本。所有数据将由UCSF收集并保密保存在大学服务器上。与此同时,与Facebook合作的所有结果都正在发布,并且可供学术界使用。
此前,马斯克的脑机接口公司Neuralink也发布过脑机接口系统,但这种植入式的设备需要向大脑中植入3000多个电极,以此来检测神经元的活动,但非植入式的设备就免去了复杂的植入步骤。Facebook 与 UCSF 正在探索的策略是使用脉搏血氧仪,检测神经元的氧气消耗,从而检测大脑活动。这种间接、非入侵式的方法相对来说更加安全。
详见:《马斯克发布iPhone可控大脑芯片!植入电极线细过发丝,机器缝线柔性无创》
Facebook最终计划,是想打造一款AR眼镜,想构建一个非侵入式可穿戴设备,让人们只想通过想象他们想说什么来打字。
Facebook 表示:“这一进展显示了未来 AR 头戴设备输入和互动能力的新潜力。”
Chang说:“我希望这不仅有益于我们正在做的事情,而且有利于整个领域。”
论文:
https://www.nature.com/articles/s41467-019-10994-4.pdf
参考内容:
认识大脑 保护大脑 发展大脑
请扫码关注,感谢支持!