AI语音应用大爆发 语音转文字、聊天机器人、降噪成三大主流 智能应用 影音
TERADYNE
Event

AI语音应用大爆发 语音转文字、聊天机器人、降噪成三大主流

  • 林佩莹台北

迪威智能推出的AI降噪服务 Noise Eraser。迪威智能
迪威智能推出的AI降噪服务 Noise Eraser。迪威智能

受惠于芯片运算持续进化,加上AI演算法的进步,也广泛应用各种领域之中。AI技术早期应用主要是以影像识别为主,应用于语音文字方面的时间较慢,不过近几年也有相当突出的成果出现,其中又以2022年爆红的ChatGPT最广为人知,也堪称AI语音的里程碑。

现今AI在语音领域运用大致上可分成三部分,首先是属于聊天机器人,主打可透过文字或语音与消费者互动,目前已被广泛应用在客服系统中。其次,则是语音转文字,将录音档或用户口说的声音,转成相对应的文字,能大幅减少人工整理的时间,非常适合应用于会议记录或媒体工作者。

迪威智能CEO林智源。迪威智能

迪威智能CEO林智源。迪威智能

迪威智能营运长叶松瓒。迪威智能

迪威智能营运长叶松瓒。迪威智能

迪威智能(DeepWave)营运长叶松瓒说,现今AI在语音领域的第三种应用,则是用来作人声与背景声分离、降噪等运用。传统语音要优化,通常需要仰赖专业人士一秒一秒处理,不仅处理过程非常冗长、成本也相当昂贵,只有高预算制作的影片才有可能使用。相较之下,经费低的个人Youtuber或在线教学的老师,仅能仰赖前期制作时的抗噪录音设备,后期制作部分根本没有足够预算聘请专业人士处理。因此,在Youtuber、在线教学等盛行的今日,不少厂商开始投入AI技术,运用于降噪或人声、背景声分离的领域之中。

AI 智能降噪独步市场 成为最佳帮手

由台湾大学信息工程系教授张智星与技术长叶子隽、CEO林智源携手,于2019年9月成立的迪威智能,是经由国科会价创计划辅导独立的新创公司。该公司致力于提供创新可负担的AI声学识别技术,协助需要声音识别的各产业减轻人力负担、提升人均产值以及产业价值。目前迪威智能在声学的AI识别与处理技术上,可提供超过20种API服务,目前密切合作产业涵盖数码音乐后制、音乐教育、一般企业面试、机械异音识别等。

以该公司推出的Noise Eraser为例,即是主打AI 智能降噪的产品,透过近万笔人声、噪音素材进行训练,学习专业音效师的降噪手法,让消费者以最简单方式获得专业音效师的服务,享有消除影片杂音,使人声更清晰。工具主打仅需简单三步骤轻松达到录音师的专业降噪等级,且平均处理一个5分钟片段只需1分钟即可完成,让Youtuber、老师在录制影片时,能免去风声、雨声、车声、狗叫声等干扰,大幅提升影片品质。

叶松瓒指出,传统仅单纯去除所有背景音的做法,往往会让影片音讯听起来不真实,市面上很多免费工具都是属于此类。为此,迪威智能以AI技术为基础,再根据多次实验、使用者测试,调配出最佳应用比例,符合多种应用情境,且使用者也可根据自身需求,调整人声/噪音比。我们在AI声学识别领域深耕超过二十年,更是数届国际语音和音乐分析比赛常胜军,希望将这些具高度潜力的技术转化成可以帮助企业数码转型的垫脚石,为台湾的数码转型贡献一份心力。

参与TTA活动 接触投资人与潜在客户

迪威智能Noise Eraser目前有免费版与付费版本,其中免费版每次仅能处理5分钟的档案,若使用付费的订阅制服务,则没有影片处理时间上限的限制。由于Noise Eraser的降噪功能非常强大,加上每月支付费用合理,所以有高达70%营收来自海外市场。而在强大技术能力加持下,迪威智能创业至今也获得多个奖项肯定,如经济部工业局「次时代技术应用人才淬炼计划」之「2021数码科技解决方案竞赛」、Startup Taipei、长庚大学、联合创新加速器的「20X22初心决心天使选秀活动」、数码发展部数码产业署的AIGO AI产业实战应用人才淬炼计划优胜等。

迪威智能CEO林智源说,迪威智能在成长过程中,受到许多法人及政府单位的协助,除国科会的价创计划外,我们也在TTA协助下参与很多活动。除获得很多品牌与产品的曝光机会之外,也接触到不少国外投资人、客户等,对公司长远发展带来不少帮助。

随着Noise Eraser在市场上大受欢迎,2023年迪威智能规划进一步推出会议记录、语音转文字等服务。其中,会议记录主打可识别不同的人声,且能分能别将会议过程中的语音记录下来,目前已经在不少政府单位试用中,并获得极高的评价。


关键字