语音识别操控成嵌入系统必备人机界面 智能应用 影音
EVmember
ADI

语音识别操控成嵌入系统必备人机界面

  • DIGITIMES企划

语音识别/操作便利性高,Google在其Android嵌入式系统生态系即整合语音识别功能,使用Android系统的硬件产品可快速开发所需语音控制功能。Enblink
语音识别/操作便利性高,Google在其Android嵌入式系统生态系即整合语音识别功能,使用Android系统的硬件产品可快速开发所需语音控制功能。Enblink

在车用或是移动应用环境中,语音识别、语音指令可以为使用者带来极便捷的操作条件,因为使用者在移动中通常仅需要做到极简单的操作目的,例如查询通讯录中的某笔连络电话、翻查记事本应用程序中的某一笔记摘要,或是执行拨打电话或撰写简讯等操作,这类操作复杂度相对较低的使用行为,若使用者还需在触控屏幕不断点选、翻查再经由执行驱动相关应用,实际上并不见得能提供多好的使用体验。

相同的操作目的下,使用者若是利用语音识别技术下达语音指令,基本上仅须对着手机或移动设备、车载多媒体电脑等设备,说出自己欲操作的应用程序、执移动作,嵌入式系统若在语音指令整合得宜,基本上不需要太多操作程序,用说的就能将对应操作需求执行完成,这对于在不利手持或是触控屏幕操作的条件下,透过语音识别执行的语音指令,只要在识别能力与指令整合进行优化,大多可以提供使用者优于触控操作或是鼠标/键盘人机互动界面所能提供的操作便捷性。

碍于嵌入式系统运算资源相对吃紧,开发语音识别、语音指令应用限制也较多,多半仅能以系统要求口述指令架构说出语音操作目标。Microsoft

碍于嵌入式系统运算资源相对吃紧,开发语音识别、语音指令应用限制也较多,多半仅能以系统要求口述指令架构说出语音操作目标。Microsoft

Siri目前可以做到利用自然语言口述,进行网络影片/音乐查找,也能取代触屏操作常用手机操作。Apple

Siri目前可以做到利用自然语言口述,进行网络影片/音乐查找,也能取代触屏操作常用手机操作。Apple

Apple Siri语音助理 以自然语言处理胜出

先检视不同嵌入式系统阵营的语音识别/语音指令发展现况,以Apple来说,语音识别技术目前以名为Siri的语音助理功能整合在iOS嵌入式应用平台中,Siri为源自学习和组织的认知助理专案(Cognitive Assistant that Learns and Organizes;CALO),CALO技术方案原先定位在拆解自然语言对话的语意分析为基础,透过人与机器的对话进行自然语言理解,在透过大量的使用经验与分析建构更趋完善的自然语言分析数据库,Siri基本上是在建构一个模仿人类助理的应用服务,协助操作者透过自然对谈执行对应服务或是动作。

但自然语言分析数据庞杂,并不利于在操作与运行资源相对有限的移动嵌入式应用平台中进行整合,而Apple的作法是将Siri于iOS嵌入式系统平台中的应用程序最小化,主要以驱动语音指令的识别、软件操作界面呈现,与执行对应语音Script程序的驱动为主,而在操作者的自然语言语意分析与对应Siri回应数据库的拟人化设计,则透过云端技术取用Apple的Siri服务界面,达到既能拥有丰沛的自然语言识别与回应云端应用,同时又可在不需大量增嵌入式运算环境前提下,整合语音识别与操作应用人机互动界面。

Google提供丰富语音指令开发工具

而在Google方面,其开发针对嵌入式应用需求建构的Android系统平台,则是整合了Voice Actions应用API(Application programming interface),在Android嵌入式系统环境即备齐了语音指令解析与对应程序操作的设计条件,这对于第三方程序开发商来说,可以利用Android提供的功能进行应用整合,也能在自己发展的应用程序中追加语音控制、语音指令分析/操作使用弹性。

虽然Voice Actions本身的语音识别能力表现不俗,但实际上在Android本身的系统或是应用程序整合方面,仍有相当大的改善空间,例如,若要在嵌入式浏览器中进行语音查询网页操作,使用者仍需触按麦克风图示搭配查询关键字语音,而Voice Actions本身也有自己一套拆解语音指令程序的语句架构语法,与Siri强调的自然语言不同,Voice Actions需要有条理说出操作需求,嵌入式系统才能触发对应语音操作要求。

嵌入式高效运算平台  Microsoft语音识别资源双管齐下

除了Apple与Google外,实际上在嵌入式应用环境发展语音识别、语音指令的嵌入式系统平台,仍以Microsoft最早也最完整,Microsoft的语音控制应用不只在嵌入式应用平台导入,其实在个人电脑系统Windows 7之后的版本,也都有对应系统整合应用,而在嵌入式移动设备系统对应产品方面,则在Windows Phone 7(WP7)以后的嵌入式应用平台均有对应功能搭载,而早在WP7之前,Windows嵌入式应用的语音功能,也有IBM等业者开发对应软件开发整合工具与语音识别引擎,提供需要在第三方应用程序开发专案中加入语音控制的整合需求。

而在嵌入式运算产品实际导入语音识别、控制操作,其实开发难度相当高,一方面触发语音指令的机制需要透过对应传感器或是人机互动操作进行,另一方面触发语音指令进行拾音、分析、提取操作程序等过程,又需要大量的运算资源,这对运算效能、存储器容量、PCB载板空间相对有限的嵌入式应用装置来说,发展的难度相当高,设计要求并不容易达成。

嵌入式硬件性能虽提升 语音识别启动仍须折衷

但随着多核心、异质多核心处理器不断推陈出新,部分系统负载较大的应用操作,大多已可透过SoC嵌入的DSP或硬件线路进行加速运算,移动设备本身的运算效能也已达到逼近桌上型电脑的时脉与运算效能,应付语音指令的解析、执行并不算太大的运算负担,其间整合语音指令分析、操作的困难点,反而是在整个语音指令触发、操作的系统设计完整度,如何透过简单、便捷的方式触法语音指令进行解析与操作,才是嵌入式应用系统发展语音控制的重要关键。

尤其在低功耗音讯技术整合方面,硬件方面的技术现况已足以应付整合需求,反而是在软件方面的整合,才是语音指令系统的整合关键。虽说语音是人类最自然、轻松的交流/沟通方式,但在机器人机互动设计中,就必须在设计中整合必要的语音指令触发机制,因为不能让移动设备无时无刻都在等待用户的语音指令,这反而会造成系统传感器的运行功耗损失,透过必要的语音识别触发机制,会是最务实的设计方案。

触发语音识别机制 成为节省嵌入式语音识别功耗关键

以Siri语音助理为例,使用者可以透过长时间押按iPhone/iPad的Home按键,触发Siri语音助理功能,此时移动设备才会开启麦克风,并在撷取完整对话后启动语音分析、语意提取等高效能运算解析语音命令。虽然以Siri的例子来说,启用语音还须先按键才能进行,整个操作体验是与真人互动沟通多了些额外操作,但实际上这也是为了降低嵌入式系统等待语音指令的折衷设计,此外,透过使用者主动押按Home键进行语音指令的对话起点,也能相对增加分析语音、提取操作语意的识别准确度。

虽然语音指令人机互动设计,最佳化的设计架构应是操作者无间断地侃侃而谈,而电脑语音助理也能随之互动回应,虽在软/硬件与功能设计对现今的嵌入式平台并非难事,但实际上这种自然对话、实时分析、实时回应的设计难度在于需要极精准的语句提取、解析语意,同时又须高效能分析与提供人工智能系统回应,整个过程设备均需在高效能条件下进行,其间产生的元件运作功耗,反而会损及移动产品必须在有限的体积与电力下,维持长效运作的设计目标。