探讨云端语音识别 智能应用 影音
工研院
DForum0515

探讨云端语音识别

(图一)透过降噪处理将噪音消除。
(图一)透过降噪处理将噪音消除。

语音识别是将源自麦克风或是其他来源的音讯,传送到服务器运算处理,或是本地运算识别,以将语音实时转换成文字。将音讯传送到服务器,可得到的回传识别结果诸如文字或是解析音讯的意图;此时,需要将文字转换成语音,才能透过应用程序回应给使用者。

在识别语音串流以前,需先进行杂音抑制处理,若处理不当,则会降低系统的识别率。想当然,在安静的环境下,识别率高;在杂音较多的地方,是不是也能确实进行识别呢?

Microchip SAMA5D2系列,提供Linux开发平台及丰富周边控制模块。

Microchip SAMA5D2系列,提供Linux开发平台及丰富周边控制模块。

要确保声音品质,可透过降噪的处理方式将噪音消除(如图一)。除了噪音技术,噪音调教还与机构本身、麦克风位置和方向息息相关。正确取得声音串流后,接续就是语音识别服务器的选择,以GOOGLE提供的平台为例,它提供了一系列的Cloud Speech API,让使用者轻松应用语音识别进行控制。

你还需要一个强而有力的控制平台,将声音串流录制并传送到服务器,进行语音回应输出、控制。作为大多数的选择,Linux平台可以快速取得相关资源并连结网络,在挑选Linux开发平台时,最重要的指标是平台是否支持Linux main line,以确保你的Linux平台可以持续支持新的Linux版本。

Microchip SAMA5D2系列,提供Linux开发平台及丰富周边控制模块,协助您快速建立产品应用。为了缩短开发时间,同步提供SoM开发平台,有利于大幅降低使用者的开发时间及硬件设计难度。

未来,全球语音识别市场将会变得更加多样化,同时,软件准确度将会大幅提升。以医疗领域的应用为例,穿戴式应用将不仅是简单的通过智能手表追踪运动情况和心率,还能直接根据使用者的身体状况匹配相应的服务,例如合适的餐厅或食物等。还有更多使用场景也被考虑在内,例如紧急语音求助、医患对话存档、呼叫中心对话听写等等。

而在智能车载方面的应用,则是因为行车安全聚焦了许多目光。例如,2016年曾有人设计出一个车载屏幕,能利用多指的简单手势解决司机操作触控屏幕过度分散注意力的问题。通过将车载平台和手机连接,还可以帮用户实现语音控制GPS导航、信息收发、电话拨接、社群网络更新等应用。欲浏览更多技术白皮书请至「Microchip视频及资源中心」。(DIGITIMES周维棻整理报导)