智能应用 影音
Microchip
ST Microsite

让MusicTalk诉说敲击的故事

梅尔频谱图。

2024年10月6日,我到国家戏剧院观赏朱宗庆打击乐团击乐剧场《六部曲》。打击音乐水准极高,让观众感受到洗涤心灵的音乐飨宴。国家戏剧院是一座智能剧院,舞台背后设有巨型银幕,能与表演者进行虚实结合的互动。表演过程中,银幕上出现浮云、瀑布、抽象光影等动画。

感觉上打击乐器与银幕图像较无实时地关联。在我脑海中浮现的是各种打击乐器的实时梅尔频谱图 (mel spectrogram)。

梅尔频谱图是一种变形的频谱图,常运用于语音处理和机器学习。它与频谱图类似,显示音频信号随时间变化的频率内容,但其频率轴不同。我发展一套AI工具MusicTalk,其中一个功能可以实时分辨出一首乐曲中同时演奏的乐器种类。MusicTalk将乐器的声音转换为梅尔频谱,并以特殊AI演算法分析,准确度接近95%,是迄今最准确的方法。我在开发MusicTalk时,研究许多打击乐器的梅尔频谱图,因此在《六部曲》的演奏过程中,各种变化多端的梅尔频谱图不断在我脑海中浮现。将抽象动画与敲击声音连结并不容易,若能将敲击声音与科学结合,将更具意义。

第一位以科学系统化赋予敲击声意义的是奥恩布鲁格(Leopold Auenbrugger, 1722~1809)。他是旅馆老板的儿子,在维也纳大学接受医学教育,深受Gerard van Swieten影响。1761年,他出版小书《新发明》(Inventum novum),成为以叩诊法(percussion in the diagnosis)诊断胸部疾病的第一人。尽管传说他的发现灵感来自童年敲打父亲酒桶的经历,但更可能的是他敏锐的音乐耳朵让他能分辨出胸部病变过程中的音调变化。他描述各种病变如何导致叩诊时音调转变为不同音色,如「高音」(sonus altior 或鼓音)、「低音」(sonus obscurior 或模糊音)、或「钝音」(sonus carnis percussae 或肉叩音)。这些发现后来得到临床诊断的实证。

奥恩布鲁格一生酷爱音乐,经常在家中举行午后音乐聚会,莫札特 (Wolfgang Amadeus Mozart, 1756~1791) 一家也曾受邀参加。他的2个女儿都很会弹钢琴,宾客们曾评论说:「她们两人,尤其是姐姐,弹得非常好,并且极具音乐天赋。」

10年后,莫札特为萨尔茨堡(Salzburg)创作一些新歌剧,其中之一是日耳曼喜剧《烟囱清洁工》(Der Rauchfangkehrer)。该剧于1781年首次在维也纳国家歌剧院上演,剧本正是由奥恩布鲁格撰写。奥恩布鲁格的音乐艺术天分无庸置疑,能以极具创意的方式将器具的敲击声赋予科学 (医学) 的意义。
奥恩布鲁格的成就,影响我对利用敲击工具(乐器)解释科学现象的兴趣。我开发出 AI 工具 WatermelonTalk,能将拍打西瓜的声音分为4类,代表不同的成熟度,准确度高达94%,是迄今最精准的成熟度判定方法。

在聆听《六部曲》时,我期望编剧者能充分利用如MusicTalk这类AI工具,以科学方式利用未来剧院的智能银幕,呈现敲击乐器的特徵,使观众更能理解乐器所表达的内涵,进一步促进音乐与科技的深度结合。

 

奥恩布鲁格(Leopold Auenbrugger, 1722~1809)。

现为国立阳明交通大学资工系终身讲座教授暨华邦电子讲座,曾任科技部次长,为ACM Fellow、IEEE Fellow、AAAS Fellow及IET Fellow。研究兴趣为物联网、移动计算及系统模拟,发展出一套物联网系统IoTtalk,广泛应用于智能农业、智能教育、智能校园等领域/场域。兴趣多元,喜好艺术、绘画、写作,遨游于科技与人文间自得其乐,着有<闪文集>、<大桥骤雨>。