智能应用 影音
MongoDB
ADI

脑机界面以及语音合成

目前的脑机界面是维持经由生物演化所赋予的感觉及动作,再经由这些传统的脑机界面与机器沟通。BEA Systems

脑机界面(Brain Machine Interface;BMI)开发迄今有15年了,最近有令人兴奋的进展:将神经活动解译成语音。这是基础科研以及医疗界的携手进展,而下一步—或长或短—或将要连动电子业了。

BMI从开始研发至今,应用都集中于对因神经系统或官能损害的疾病,而想办法由病人脑中直接与外在的假肢(prosthetic)取得联系。与大脑的沟通方向有两个:写入与读出。前者已有较大的进展,以电剌激向神经细胞传递信息,在临床医疗上也开始应用,像耳蜗假肢(cochlear prosthesis)传递信息给听觉神经使聋人也能听到,巴金森氏症也可以用电信号剌激位于脑部深处的基底神经节(basal ganglia)来治疗改善。

但是读出大脑的信号大不易。传统上有两个方式:脑电图(ElectroEncephaloGraphy;EEG)和功能磁共振成像(functional Magnetic Resonance Imaging;fMRI)。前者量测了大约1cm2脑细胞的平均活动,基本上是巨量脑细胞的集体行为;后者是间接的测量,监测脑中一特定活动功能区的血流量增幅,能测量的面积较EEG小,但是分辨率仍然不够好。而且血流缓慢,不能反映脑活动的快速变化。

理想上的脑细胞信号读取应该是像电路中对每一存储器单元逐一读取,以现在的纳米科技这也不是完全不可及,但是目前仅有的手段是侵入性的-植入一块4X4mm2的电极,上头有100个探针,整片电极与探针可以记录100~200个神经元活动。这样侵入性的治疗目前自然只能施用在志愿的病患身上。

电极嵌入的地方一般在运动皮质(motor cortex),它的位置在脑皮质上方中间一横贯左右的狭幅长条,主要功能是下达运动指令。最近取得重大进展的人工语言合成就是从腹侧感觉运动皮质(ventral sensorial motor cortex,感觉皮质紧接运动皮质的后方)、颞上回(superior temporal gyrus,位于皮质之中下方,负责处理声音如频率、振幅等信号)、下额回(inferior frontal gyrus,位于皮质最下方,负责语言处理,知名的布洛卡语言区就在这里)记录神经活动,用一组递归神经网络的双向长短期记忆(bidirectional long short-term memory)解码为发声运动(articulatory kinetics)特徵,然后再用另一组双向长短期记忆将发声运动特徵解码为声音信号。这样经两阶段解码就可以将脑部的发音表徵转换成人工合成语音,这是脑神经科学与人工智能协作所取得的重大成果。

另辟蹊径而且取得重大成果的是不用运动皮质而改用后顶叶皮层(Posterior Parietal Cortex;PPC),后者的位置在运动皮质之后的一小块,功能是产生意向(intention)。用PPC比用运动皮质有两个好处:一是PPC可以用于身体两侧,不像运动皮质是左边管右侧身体、右边管左侧身体。二是发动一个意向比发号运动指令快的多。植在PPC上的电极现在已经能成功的让志愿病患靠意念指挥假肢,譬如用机器手臂喝啤酒。

这跟电子产业有什麽关系?当然上述电极的微小化、低功率、可挠性、无线连结等都是脑神经科学家和医师所梦寐以求的,而且若被核可用于临床应用将会有很大的市场,但这些意义犹小。

广义来说,我们现在用于生活的许多周边器具如键盘、鼠标、屏幕、手写板、麦克风、耳机等,都算是脑机界面。由于植入电极是侵入式的考虑,目前对脑机界面我们维持了经由生物演化所赋予的感觉及动作,再经由这些传统的脑机界面与机器沟通。科学家现在想的是对每个个别神经元非侵入式的双向沟,也许像VR样带个什麽器具就成。要多久呢?没法子猜,但BMI发展迄今也不过15年而已就有如此成就,也许《星际争霸战》中的场景也不全然是想像,那时电子器具的变革才大。

现为DIGITIMES顾问,1988年获物理学博士学位,任教于中央大学,后转往科技产业发展。曾任茂德科技董事及副总、普天茂德科技总经理、康帝科技总经理等职位。曾于 Taiwan Semicon 任谘询委员,主持黄光论坛。2001~2002 获选为台湾半导体产业协会监事、监事长。