科胜讯推出长距离语音输入芯片 锁定智能电视 智能应用 影音
工研院
ADI

科胜讯推出长距离语音输入芯片 锁定智能电视

  • 李佳玲台北

影像处理、音讯、嵌入式基带以及视讯监控应用创新半导体解决方案领导厂商科胜讯系统公司,为智能电视产品推出长距离语音(Far-Field Voice)输入芯片CX20865。CX20865是第一个专门为长距离语音解决方案并配合了自动语音识别(Automatic Speech Recognition;ASR)引擎,为线上离语音控制应用进行优化解决方案的芯片。

科胜讯新型的低功耗DSP配合第三方自动语音识别ASR引擎可支持智能电视电源关闭状态下语音唤醒的功能。科胜讯独有的长距离(Far-Field Pickup)语音处理演算法,并配合高性能24位元立体声ADCs的结合,增加了一个特有的视频直播对谈(Talk)体验与VoIP应用程序的结合(例如Skype电视)。即使电视在高音量输出状态下,仍可提供准确的语音控制功能。新的选择性来源截取技术SSP(Selective Source Pickup),使在零售环境中和展示会场随机周围环境的干扰下仍然有良好的语音识别。

作为客厅的核心,智能电视正在成为客厅新的主控枢纽其他数码设备和云端设备的人机界面。在消费者与电视间,语音是一个自然与理想的人机界面。从基本的语音控制,先进的语音搜索,应用程序的交互,社交网络,到聊天和游戏等。然而,为了提供智能电视语音体验,用户的指令,环境的噪音,电视播放的音量和距离,都必须考虑。在长距离的语音处理技术的先驱,科胜讯与领先的电视OEM厂商密切合作,克服了这些技术挑战。

新的CX20865硬件采用双核及高性能的32位元DSP,多工处理语音数据和第三方自动语音识别ASR引擎。芯片内建的DC to DC硬件,更提供了先进的电源管理功能。界面控制上CX20865提供full-speed USB及I2S I/O的语音数据及I2C和UART接口。四个麦克风输入路径已升级为具有高性能前置放大器和24位元ADCs,并提供106dB动态范围的录音功能。此外,每个麦克风通道均有独立的专用麦克风偏压,以防止串音。

当电视以高音量播放声音时,CX20865的增强语音处理技术可提供>97%的语音识别率(ASR)。新的回声消除AEC处理技术,可支持立体声、2.1声道、2+2声道内置扬声器配置。改进后的去混音和宽频处理输入技术,从根本上提高了感知的语音清晰度。为此,科胜讯还与领先的自动语音识别ASR引擎厂商合作,优化产品端及云端的语音识别率和降低错误率。

视频直播对谈功能,提供了一个融合语音通话和电视娱乐同时的新经验,让双方共享时刻看相同或不同的电视节目时能同时分享对话。此语音聊天与对话也适用于多方电视游戏,而不再需要用到耳机与麦克风(headset)。

选择性来源截取技术(Selective Source Pickup – SSP),是在嘈杂的环境中随时间变化长距离噪音抑制的一大突破。SSP可区分众多的目标来源,分离及过滤随机的语音/噪声干扰。该技术(SSP)优化了ASR的应用程序,它超越了传统有限的模拟人类听觉系统的听力限制。科胜讯行销总监Jonathan Chien指出,语音的低识别率和误检知的情形,在大的、拥挤的、嘈杂的零售展示区内,一直困扰着电视业者,我们已经采取了一种独特的方法(SSP)来解决这种情况,其结果显着的改善电视OEM零售展示区内语音交互干扰的情况。

科胜讯的副总裁兼总经理Saleel Awsare指出,我们提供的全方位(turnkey)解决方案和必要的专业知识支持,并提供最佳的经验给我们的电视OEM/ODM合作夥伴,使他们能够跟上进步的人类语音界面,并运用于智能电视。

CX20865支持以下3种主要的语音模式,1.对话模式:在一个大的房间,可通过Skype的电视认证。提供清晰自然的语音对谈结果。2.指令与控制模式:优化产品端ASR的语音识别率及对声音的噪声和回声抑制的唤醒功能。3.语音听写模式:基于云端运算的自然语言ASR语音识别率优化于房间/场景环境。