【脑客中国】杜忆：多模态言语感知与理解的脑环路机制-深圳瀚翔脑科学技术股份有限公司

8月10日晚20点，中国科学院心理研究所杜忆研究员作为脑客中国科研第67位讲者为大家带来主题为《多模态言语感知与理解的脑环路机制》的报告。以下为报告部分内容：

1言语感知和理解的特点

我们先介绍一些言语感知和理解的背景知识。

1.言语感知与理解极具挑战性：在日常生活中，我们都是在一些复杂的环境下进行言语感知，比如有背景噪音、背景音乐、甚至其他人同时在说话。比较著名的就是鸡尾酒会问题，如下图所示：

如果我们关心的是说话人B的语音，但是到达耳朵的其实是好多人声整合在一起的语音，如何提取出我们关心的目标语音信号其实是一件很难的事情。现在我们遇到过的一些语音识别软件在这方面能力做的不是很好，但人脑其实可以很简单做到这样一件事，是因为存在选择性的注意机制。

2.言语感知的脑区不是模块化的：我们知道大脑存在对于人脸加工的特异脑区，对位置加工的特异脑区，但并没有一个脑区在特意的加工语音。

3.言语感知是多通道并行的：如同视觉通路一样，言语感知同样也是分成背侧通路和腹侧通路。

4.言语感知与理解是层级化的：语音有不同的时间尺度，不同的层级，从词到短语、句子，最后组成一个篇章。所以你可以看到大脑对于这样的一个不同时间尺度的语音信号的加工，它其实是存在着层次性的编码。

5.言语感知与理解是多模态的：比较著名的一个现象McGurk Effrct，视觉信息会严重地影响到你的听觉感知。语音信号放的是/ba/，唇动信息给出的是/ga/；如果你睁开眼看到这个视频，听语音的话，你的知觉应该是听到的是一个/da/，而闭上眼睛就会只听到/ba/。

6.言语感知与理解是预测式的：如言语感知和理解是将具有复杂动态结构的声学信号投射到词义表征的过程。听者可以利用先验知识和约束（包括语法、句法、转移概率、视觉运动线索等）来预测下一时刻的语音输入，该过程可被贝叶斯推理模拟。

2言语感知与理解和言语生成密切相关

言语感知与理解和言语生成具有密切的关系。比如左边这个甲骨文文字，它的左部分是耳朵的意思，下面部分代表的是口，它表示的是我们现在的“听”字。这说明在我们听的过程中，其实存在听觉系统跟运动系统之间的一个整合。一个人说话时，他也能够听到自己的实时声音，这样的一个听觉反馈是有利于他更好地去控制他的发音动作。另外对于听者而言，当听到语音信号时，他不仅会利用到他的听觉系统，他自己跟发音相关的那些言语运动系统也会主动地模拟说话人的发音，来预测说话人的发音。

这样的过程其实是跟大脑内的镜像神经元系统密切相关的。大家知道镜像神经元系统最早是在猴脑上发现的，猕猴在执行一个动作或者是在观看他人执行一个动作的时候，会有一群神经元被激活，位于额叶的地方。这个脑区对应到我们人脑上，其实就是跟我们发音密切相关的布洛卡区和腹侧前运动皮层。近代有很多的脑成像研究也已经发现，我们的言语生成和言语感知功能区具有很多重叠的脑区，包括这些蓝色重叠的脑区其实都是镜像神经元所在的地方。