語音技術的數位轉型

林一平

2023-07-19

基於語音的多媒體物聯網（IoMT）逐見普及，被大量用於語音到文本（Speech to Text）的翻譯和語音控制應用。

此類應用核心技術是自然語言處理。陳信宏教授和我的研究團隊發展一套語音談話的IoT應用開發平台，稱為VoiceTalk，提出一種新自然語言處理機制，自動語音辨識，藉此發展不少有趣的互動應用。

2020年台灣總統大選電視辯論直播，公視新聞網和陳信宏帶領的語音辨識團隊合作，採用當時國立交通大學團隊開發的人工智慧（AI）語音辨識系統，將語音即時轉換成字幕。陳信宏指出，語音辨識有幾大挑戰，包括要有足夠的文字知識庫、要能夠處理語音雜訊，還有自發性語音的重複和修正等，比如講者說到「...好，好像」等字詞。除此之外，交大團隊也在視覺上下功夫，比如字體大小、字幕行數多寡等。

2020年總統大選辯論直播，語音辨識AI搭配聽打員微調，提高字幕準確率。公視經理蘇啟禎表示，這次公共服務實驗難能可貴，未來技術更成熟，不排除應用於開票報導或其他大型轉播專案。

VoiceTalk將語音轉換成繁體中文文本後，還要將之翻譯成不同語言。如今我們上網讀文章，遇到不同語言的文字，有軟體可進行翻譯，這是古代人想像不到的神奇應用。沒有翻譯文章的工具，人類的溝通就受到限制。方東美（1899～1977）在其巨著《中國哲學精神及其發展》寫著: 「偉大翻譯家實導更偉大創作之先河。」的確如此。方東美曾說:「聞所成慧（śrutamayī-prajñā）、思所成慧（cintāmayī-prajñā）、修所成慧（bhāvanāmayī-prajñā）乃哲學境界之層次，哲學功夫之階梯，聞入於思，思修無間，哲學家兼具三慧，功德方覺圓滿。」藉由翻譯，廣讀世界各地哲人的文章，是「聞入於思」的重要步驟。

現今的資通訊技術，很容易達到這個目的。於是，我們也思考如何將VoiceTalk加入ChatGPT的plugin，以達到「聞入於思」的境界。這需要我們對歷史文化的認知。

由翻譯引導出哲學、文化蓬勃發展的例子發生在八到十世紀間的阿拉伯世界。在此時期，巴格達的學者如火如荼將希臘作品翻譯為阿拉伯語。例如穆斯林史學家Ibn Ishaq（Abu Abd Allah Muhammad ibn Ishaq ibn Yasar al-Muttalibi ）就以翻譯亞里斯多德（Aristotle）著作聞名於世；到了十一、十二世紀時，有一群基督徒住在被伊斯蘭統治的西班牙，接觸這些阿拉伯思想家的著作，以及亞里斯多德等希臘哲學家的阿拉伯譯作。這群基督徒將阿拉伯譯／著作再翻譯成拉丁文，造成十三世紀西方哲學與神學的黃金時期。

古人必須千辛萬苦地翻譯文章，才能獲得知識，如今ChatGPT的普及，我們有智慧的文章翻譯軟體，比古人幸福多了。值得深思的是，如何在資通訊工具大量翻譯的知識中，獲得真正哲學與文化的精髓？

中國現代哲學家方東美。

語音技術的數位轉型

林一平國立陽明交通大學資工系終身講座教授暨華邦電子講座

推薦活動

硬體資安白皮書

邦博士快訊

語音技術的數位轉型

林一平 國立陽明交通大學資工系終身講座教授暨華邦電子講座

推薦活動

硬體資安白皮書

邦博士快訊

林一平國立陽明交通大學資工系終身講座教授暨華邦電子講座