智能应用 影音
工研院
ADI

语音技术的数码转型

基于语音的多媒体物联网(IoMT)逐见普及,被大量用于语音到文本(Speech to Text)的翻译和语音控制应用。

此类应用核心技术是自然语言处理。陈信宏教授和我的研究团队发展一套语音谈话的IoT应用开发平台,称为VoiceTalk,提出一种新自然语言处理机制,自动语音识别,借此发展不少有趣的互动应用

2020年台湾总统大选电视辩论直播,公视新闻网和陈信宏带领的语音识别团队合作,采用当时国立交通大学团队开发的人工智能(AI)语音识别系统,将语音实时转换成字幕。陈信宏指出,语音识别有几大挑战,包括要有足够的文字知识库、要能够处理语音杂讯,还有自发性语音的重复和修正等,比如讲者说到「...好,好像」等字词。除此之外,交大团队也在视觉上下功夫,比如字体大小、字幕行数多寡等。

2020年总统大选辩论直播,语音识别AI搭配听打员微调,提高字幕准确率。公视经理苏启祯表示,这次公共服务实验难能可贵,未来技术更成熟,不排除应用于开票报导或其他大型转播专案。

VoiceTalk将语音转换成繁体中文文本后,还要将之翻译成不同语言。如今我们上网读文章,遇到不同语言的文字,有软件可进行翻译,这是古代人想像不到的神奇应用。没有翻译文章的工具,人类的沟通就受到限制。方东美(1899~1977)在其巨着《国内哲学精神及其发展》写着: 「伟大翻译家实导更伟大创作之先河。」的确如此。方东美曾说:「闻所成慧(śrutamayī-prajñā)、思所成慧(cintāmayī-prajñā)、修所成慧(bhāvanāmayī-prajñā)乃哲学境界之层次,哲学功夫之阶梯,闻入于思,思修无间,哲学家兼具三慧,功德方觉圆满。」藉由翻译,广读世界各地哲人的文章,是「闻入于思」的重要步骤。

现今的资通讯技术,很容易达到这个目的。于是,我们也思考如何将VoiceTalk加入ChatGPT的plugin,以达到「闻入于思」的境界。这需要我们对历史文化的认知。

由翻译引导出哲学、文化蓬勃发展的例子发生在八到十世纪间的阿拉伯世界。在此时期,巴格达的学者如火如荼将希腊作品翻译为阿拉伯语。例如穆斯林史学家Ibn Ishaq(Abu Abd Allah Muhammad ibn Ishaq ibn Yasar al-Muttalibi )就以翻译亚里斯多德(Aristotle)着作闻名于世;到了十一、十二世纪时,有一群基督徒住在被伊斯兰统治的西班牙,接触这些阿拉伯思想家的着作,以及亚里斯多德等希腊哲学家的阿拉伯译作。这群基督徒将阿拉伯译/着作再翻译成拉丁文,造成十三世纪西方哲学与神学的黄金时期。

古人必须千辛万苦地翻译文章,才能获得知识,如今ChatGPT的普及,我们有智能的文章翻译软件,比古人幸福多了。值得深思的是,如何在资通讯工具大量翻译的知识中,获得真正哲学与文化的精髓?

 

国内现代哲学家方东美。

现为国立阳明交通大学资工系终身讲座教授暨华邦电子讲座,曾任科技部次长,为ACM Fellow、IEEE Fellow、AAAS Fellow及IET Fellow。研究兴趣为物联网、移动计算及系统模拟,发展出一套物联网系统IoTtalk,广泛应用于智能农业、智能教育、智能校园等领域/场域。兴趣多元,喜好艺术、绘画、写作,遨游于科技与人文间自得其乐,着有<闪文集>、<大桥骤雨>。