满足人类的想像创意的语音识别技术 智能应用 影音
Event
DFORUM

满足人类的想像创意的语音识别技术

  • DIGITIMES企画

赛微科技(Cyberon)副总经理刘进荣。
赛微科技(Cyberon)副总经理刘进荣。

语音识别是人类长久以来的想像创意与渴望,从阿里巴巴与四十大盗中的〝芝麻开门〞,到2001年Space Odyssey(太空漫游)电影中,能语音沟通的HAL9000人工智能电脑,就是语音控制应用想像力的具体表现。

赛微科技(Cyberon)副总经理刘进荣,介绍于2000年成立的赛微科技是以嵌入式系统软件语音技术及解决方案提供者为定位,总部位于台北新店;全球超过250款、5,000万部移动设备采用赛微语音技术,像是智能玩具IC、功能手机、智能手机、个人导航装置(PND)、汽车电子(Automotive)、移动服务(Mobile Service)、医疗(Medical)与家庭多媒体(Home Media)等产品。

刘进荣指出,相对于代表文明能力的文字沟通,语音则是人类独特且与生俱来的自然沟通能力,也是思想信息传递的媒介,至于判断语音涵义的解译器(Decoder),则位处于未知的人类心智深层结构。

语音识别技术的演进与发展

刘进荣提到语音识别技术的类别,可分为:特定人指令识别、不特定人指令识别、不特定人大量词汇识别、不特定人连续语音识别,以及最复杂的自然语言处理?对话系统(理解系统)。

特定人指令识别(Speaker-Dependent Voice Recognition)仅针对单一使用者口音做少量的词汇指令,用户须预先录制语音标签(Voice Tags),以图徵比对(Pattern Match)的方式进行识别并执行对应动作。例如赛微语音快速拨号(Cyberon Voice Speed Dial)可应用于语音拨号与启动AP。其优点在于无语言限制且准确率高,缺点则是使用者负担大,支持指令数少。

不特定人指令识别(Speaker-Independent Command-based Voice Recognition),用户无需进行口音训练,以机率统计方式建立通用之口音模型(Acoustic Model),并内建发音模块把文字词句转成发音符号;同时可动态添加文字做为识别指令,以及支持数千笔指令识别。

像赛微语音命令(Cyberon Voice Commander),提供人名拨号、启动AP、声控指令等,支持双语识别与支持蓝牙声控;赛微同时提供VStar SDK语音识别套件,以弹性的指令语法架构,支持美洲语系(美语、巴西语、南美西班牙语)、亚洲语系(繁?简中、广东话、韩、日、印度语、泰语、越南语)、澳大利亚英语与欧洲语系(英、德、法、意、西、葡、俄、荷、希腊语)等31种语言。

不特定人大量词汇识别(Very Large Vocabulary Voice Recognition)支持支持数万至百万个词汇识别,并以树状架构组织识别词汇。像赛微随身典语音查询,提供超过6万个英文及5万个中文词目识别,以及提供英文单字或拼字方式查询。

不特定人的连续语音识别(Continuous Speech Recognition),其识别的语音内容为多个词汇的连续组合,一般应用在像是语音听写(Speech-to-Text, Dictation)和GPS导航系统景点及地址的口语输入。

语音听写的应用上,透过加入语言模型(Language Model),依照前后文判断最佳选字与文字组合。像赛微轻松说(输入法),提供候选字词、智能学习功能、使者自订词汇与语音调适功能。

至于景点及地址输入,则依据应用领域调整识别词汇内容,并以Domain knowledge进行后处理。赛微目前可以做到像是一段式地址输入(如XX县XX市XX路X段XXX号),或者用口语景点方式(例如内湖家乐福)来查找。

自然语言处理╱对话系统的应用

至于最复杂的自然语言处理?对话系统(理解系统),例如苹果iPhone4S的Siri语音识别技术,它结合了语音界面、自然语言处理系统,以及后端网络查找╱云端服务供应商(Google、Wolfram Alpha)于一体。

赛微开发出VoiceGO!生活行…针对台湾地区生活信息语音查找服务(Free App),用户下载之后,可语音说出关键字后透过VoiceGo!上网查找,目前针对电影、天气、地点、交通与更多语音识别╱查找的应用。而口语识别/对话系统,也可应用到手机的移动挂号系统、移动院内系统,以及家庭中的智能电视的频道选择、音量与画面设定等用途。

刘进荣总结,语音是人类与生俱来特有的相互沟通媒介,当语音识别技术发展日趋成熟齐备,口语对话成为为目前趋势;适当了解各项技术的限制并选择适合的应用,让语音成为安全与便捷的操作方式的人机界面的一环,同时成为产品加值的利器。