智能应用 影音

语音技术领导者赛微科技 定制化车用语音服务惊艳市场

2016/10/17 - 周维棻

赛微科技成立于2000年,走过16个年头,如今是全球重要语音技术及解决方案提供商。核心技术能力在于「语音识别」及「语音合成」,并拥有丰富平台移植经验,开发平台包含Android、Windows、QNX、Linux,合作对象涵盖海内外ODM业者和品牌商,HTC、宏碁、华硕皆是旗下客户。

从2004年至今,全球共计超过280款、7,500万台移动设备和超过40万台车机导入赛微语音技术。赛微科技业务经理陈柏沅表示,赛微的交谈式语音互动界面应用,早期从声控玩具、一般型手机切入,逐渐往消费性产品、车用语音领域深入;此外,赛微在智能家庭、居家医疗照护、服务业皆有布局,随着穿戴式装置、IoT联网设备对语音需求的提升,未来势必持续扩大应用市场及使用群众。

持续研发语音关键技术  产品方案独树一帜

目前赛微的语音解决方案项目多元,像是输入文字就能透过语音念出,更新版本也不用重新录制的CReader– Text-To-Speech SDK;属于指令式命令程序的CListener– Command-based VR SDK,则支持上千笔动态指令识别,整个架构除单词的Single Command外,还可接受Pre、Central、Post的多词组搭配指令,在有限资源的嵌入式装置达到最佳效率的演算。

赛微于2015年底推出CCLever–Local free speech control SDK,是目前的核心方案。CCLever SDK针对手机、车机的计算能力设计架构,可在离线的环境下于缺省的功能范围内实现自然口语识别,在没有完全符合指令时也能实现语音识别。其所能处理的复杂程度较高,在互动体验的弹性度上也更为提升。

CCLever SDK具备三大特色:第一,自然口语语音操作。扩展条目指令式语音识别到自然口语互动,使用者无需记忆操作指令,对语气词、赘词、前后杂音等有较佳的容许能力。第二,不需联网也能于终端设备上识别运算。使用过程不因网络信号有无或好坏而受限,不需建构及维护营运网络服务器系统,且使用者个资更能受到妥善保护。第三,完善的开发工具。开发者可自主设计,配合应用优化识别内容,并掌控开发时程与信息安全。

除CCLever SDK之外,赛微的其他解决方案还包含CSpotter– Trigger command SDK(always listening),针对关键字识别做唤醒应用,词汇以外的字词声音不会误触发;CNavi Pro – POI/Address speech input SDK针对客户不同系统的图资,辨别图资内容的词汇,做客制化的程序设计;Speaker Verification SDK人别判断技术,针对不同命令者录制的语言标签,透过撷取每个人的声音特徵值,做出人别辨别应用。

目前,赛微所开发的语音技术共可支持32国语言,甚至同样语系针对不同地区口音做到细致分类;CListener和CSpotter产品,光是英文语系就已做到区分北美、英国、澳大利亚、华人等口音,而CReader支持语言的High Quality version版本,更能提供整句文章朗读功能。

三大车用语音使用情境  打造更弹性化的人机互动

目前赛微在车用语音方案的导入,技术已臻成熟,且合作业者不乏国际着名车厂及一线(Tier one)车用多媒体主机厂。陈柏沅指出,目前赛微在车用领域,合作对象有Luxgen、Toyota、Honda、怡利、鼎天、大陆车机厂路畅、好帮手等,相关应用包含人名拨号、声控点歌、电台调频、声控导航、模式切换等功能。

若再进一步检视车用环境所使用到的语音服务,赛微的技术支持能提供三种使用情境。情境一:蓝牙拨号及主机操控,采用技术有CReader– Text-To-Speech SDK、CListener– Command-based VR SDK,具体的应用功能有人名拨号、多媒体点播、声控点歌、模式切换、电台点播。

情境二:导航声控,行车过程最怕驾驶分心寻找地址而造成事故意外,透过声控找路导航是目前最合适的解决方案。导航软件整合CNavi– POI/Address speech input SDK技术,直接利用声音输入景点或地址;并透过CReader– Text-To-Speech SDK将识别结果、路名、路况念出。透过不同方案的交互使用,让使用者可完成「hands free」、「eyes free」的全语音操控。

情境三:简易指令操控(non OS),可在MCU等级的平台上运行CSpotter,实现像是模式切换、音量调大、上一首歌等固定控制指令。

持续开发新产品切入新兴科技市场

除了上述语音识别技术,陈柏沅表示为让赛微语音识别能在不同的环境下有更好的效能表现,赛微在声音信号处理的技术开发上不遗余力,目前已开发有Noise Reduction?Suppression噪音消除?抑制,及AEC(Acoustic Echo Cancellation)回音消除等解决方案。

不论NR或AEC皆属声音信号处理的一环,AEC+语音识别技术实现「语音打断?语音插话」(Voice barge-in)的情境,让用户无需等待系统提示音念完,即可通过说话来打断系统的提示音,并直接下达指令。

而这类型的声控方案,在市场端有越来越多的客户提出定制化需求,其他声音信号处理方案还包含Far-field Recording、Beam-forming Recording、Speaker Tracking。赛微累积10余年的丰富经验和成功案例,未来在智能家庭、医疗照护的应用上令人期待。


图说:赛微的语音关键技术深获国际着名车厂及一线车用多媒体主机厂青睐。图为赛微科技业务经理陈柏沅。