脑波 不仅是语言 机器翻译还能把脑波“翻译”成文字
如果将人脑的神经信号也视为一种语言,那么将机器翻译架构应用于解读神经信号的可行性似乎并不令人惊讶。在《Nature Neuroscience》的一篇论文中,来自加州大学旧金山分校的研究者实践了这一想法。他们用一个编码器-解码器框架将大脑神经信号转换为文字,在 250 个词的封闭句子集中将错误率降到了 3%。
论文链接:https://www.nature.com/articles/s41593-020-0608-8
在过去的十年里,脑机接口已经从动物实验转变为人类实验,其中具有代表性的结果是使得四肢瘫痪者恢复一定的运动能力,在空间维度中的两个自由度上实现连续运动。尽管这种类型的控制也可以与虚拟键盘结合使用来生成文本,但即使在理想的光标控制下,码字率仍受限于单指打字。另一种选择是直接解码口语,但到目前为止,这种 BMI 仅限于解码孤立的音素或单音节,或者在中等数量词汇构成的连续语音中,正确解码不到 40% 的单词。为了获得更高的准确性,旧金山加州大学的研究人员利用了“从神经活动中解码语音”和“机器翻译”任务之间的概念相似性。这两个任务的目标是在同一基本分析单元的两个不同表示之间建立映射。更准确地说,两者都将任意长度的序列转换成另一个任意长度的序列。在这项研究中,研究者试图一次解码一个句子,就像当下大多数机器翻译算法一样,因此这两种任务实际上都映射到相同类型的输出,即一个单词序列对应于一个句子。另一方面,这两种任务的输入是存在很大区别的:分别是神经信号和文本。但是,当前机器翻译架构可以通过人工神经网络直接从数据中学习特征,这表明机器翻译的端到端学习算法几乎可以直接运用于语音解码。为了验证这一假设,在语音生成过程中,研究人员利用脑电图获得的神经信号和相应口语的转录,训练了一种“序列对序列”的架构。此外,这项任务与机器翻译最重要的区别在于,后者的数据集可以包含超过100万个句子,但构成这项研究基础的脑电图研究的单个参与者通常只提供数千个句子。为了在相对不足的训练数据中利用端到端学习的优势,研究者使用了仅包含 30-50 个不同句子的限制性「语言」,并且在某些情况下,采用了其他参与者的数据和其他语音任务的迁移学习。这项研究的参与者从以下两个数据集之一大声朗读句子:一组图片描述,通常以对话的形式描述;或者是MOCHATIMIT14,研究人员称之为MOCHA-1、MOCHA-2等等。时间允许时,重复数据包会话。对于测试,研究人员只考虑句子集至少重复三次,这在实践中将MOCHA-TIMIT集限制为MOCHA-1。方法这里先简单介绍一下解码过程,如下图所示:参与者被要求大声朗读句子,并使用高密度ECoG网格记录他们在大脑皮层边缘的神经活动。
在每个电极上,ECoG 信号的高频分量的包络线在大约 200Hz 处提取。然后将所得的序列作为输入数据传递到「编码器-解码器」式的人工神经网络。网络分三个阶段处理序列:时间卷积:类似的特征很可能在 ECoG 数据序列的不同点上重现,全连接的前馈网络无法利用这样的特点。编码器RNN:下采样序列由RNN依次处理。在每个时间步骤中,编码器RNN的输入由每个下采样序列的当前样本和它自己的先前状态组成。那么最终的隐藏状态提供了整个序列的单个高维代码,而不管序列长度如何。为了指导编码器在训练过程中找到有用的解决方案,研究人员还要求编码器预测每个时间步长中语音和音频信号的表示,即mel-frequency倒谱系数的序列。解码器 RNN:最后,高维状态必须转换回另一个序列,即单词序列。因此,我们初始化第二个 RNN,然后训练为在每个时间步骤解码出一个单词或序列结束 token。在输出序列的每个步骤中,除了自身先前的隐藏状态外,解码器还以参与者实际说出句子中的前一个单词作为输入时的编码器-解码器框架的性能。下图中参与者的平均 WER 约为 3%。以前最先进方法的语音解码 WER 是 60%,并使用较小的词汇量进行实验。破译句子的密码。
编码器-解码器网络的卓越性能源自什么?为了量化其各种因素的贡献,研究者系统地删除或削弱了它们,并从头开始训练网络。上图中的第二个方框显示了对数据进行空间下采样以模拟较低密度 ECoG 网格的性能。具体来说,只留下了网格两个维度上四分之一的通道。WER 大约是原来的四倍,仍然在可用范围内,这表明了除高密度网格外其它因素对于该算法的重要性。第三个方框显示了MFCC在训练过程中未被锁定时的性能,其WER接近于用低密度网格数据训练的模型,但仍明显优于以前的语音解码方法。接下来,研究者考虑一个输入层是全连接而不是卷积的网络,WER 达到了原来的 8 倍。然后考虑实现高性能需要多少数据。下图显示了作为神经网络训练重复次数的函数的四个参与者的WER。没有参与者的总培训数据超过40分钟。当至少有15次重复训练时,WER可能低于25%。在下图中,有两名参与者,他们在 MOCHA 句子上的训练次数很少 ,因此解码性能较差。原标题:《《Nature》子刊:不仅是语言,机器翻译还能把脑波「翻译」成文字》