智能应用 影音
Microchip
ADI

语音AI仿真的关键:停顿

林一平手绘之马克吐温(左)与桑塔格(右)。林一平提供

最近开始流行基于语音的多媒体物联网(IoMT),被大量用于语音到文本的翻译和语音控制应用。对于此类应用,核心技术是自然语言处理。我的研究团队发展一套语音谈话的IoT应用开发平台,称为 VoiceTalk,详细阐述了基于语音的IoMT开发问题。我们提出了一种新的自然语言处理机制,进行自动语音识别,借此发展了不少有趣的互动应用。

利用语音来进行电器控制较为简单,例如灯光控制,或冷气控制,只要转译为指令即可。其商业化的产品也都极为成熟,例如Google、亚马逊(Amazon)及小米都有语音控制的产品。

而本文翻译(voice to text transcription)这项科技的发展,其难度则远高于语音控制,若无人文素养的加持,终将流于肤浅。个人浅见,最难之处之一,在于处理语句之间的停顿(pause)。写文章时,句子内部主语与谓语之间如需停顿、分开的地方,就用像一只小蝌蚪的逗号来标明。因此在进行语音识别,转化为文字时,声音的停顿处,就被翻译成逗号。然而如何找出「停顿」转化为逗号,颇有学问。

「停顿」的运用之妙,存乎一心。厉害的作家及演说家,都各自有妙招,呈现他们不同的体会。马克吐温(Mark Twain)这麽说:「正确的用词可能很有效果,但没有一个用词如同在正确的时刻暂停那样有效。」苏珊.桑塔格(Susan Sontag)则承认:「无可避免的,沉默仍然是对话中的一种语言形式和元素。」尤其,沉默也是一种回答,可微妙的代表不同意义,例如默认。

谈说中在何时停顿,意思可能完全不同。换言之,在一串文字中放逗号于不同位置,意思会有很大差距。二次世界大战时的汪精卫政权,有一位女作家名叫苏青。苏青的成名作,仅仅将逗点移动一个位置。《礼记.礼运》写着:「饮食男女,人之大欲存焉。」这位女作家将之改写为「饮食男,女人之大欲存焉。」当时民风保守。她的创作大胆前卫,自我物化,一夕成名。遇到这种语带双关的读法,停顿的判读变得很重要,否则转译成文字时,差之毫厘,失之千里,就贻笑大方了。

诗人朗诵时,我们的VoiceTalk若进入「词」的模式,会将朗诵的诗下标点成为一阙词。例如千家诗中的七绝诗《清明即景》:「清明时节雨纷纷,路上行人欲断魂。借问酒家何处有,牧童遥指杏花村。」经过人工智能,将标点符号挪移一番,就变成一阙词:「清明时节雨,纷纷路上行人;欲断魂!借问酒家何处?有牧童遥指杏花村。」我们正在思索如何利用VoiceTalk改变莎士比亚作品中的「停顿」,将莎翁的双关语化为「三」关语。

现为国立阳明交通大学资工系终身讲座教授暨华邦电子讲座,曾任科技部次长,为ACM Fellow、IEEE Fellow、AAAS Fellow及IET Fellow。研究兴趣为物联网、移动计算及系统模拟,发展出一套物联网系统IoTtalk,广泛应用于智能农业、智能教育、智能校园等领域/场域。兴趣多元,喜好艺术、绘画、写作,遨游于科技与人文间自得其乐,着有<闪文集>、<大桥骤雨>。