我以AI物联网分析音乐,并利用其结果来驱动乐器的演奏,称之为MusicTalk。接下来就想训练大型语言模型(LLM),将文字与音乐互换,再将音乐用来诠释影像。最大的应用是电影配乐。
要将音乐智能化以配合影像,科技人必须对音乐的内涵有深入的认识。例如电影的配乐最让人印象深刻的是1968年电影《2001太空漫游》(2001: A Space Odyssey)中用史特劳斯(Richard Strauss, 1864~1949)演绎《查拉图斯特拉如是说》(Thus Spake Zarathustra)这首乐曲的开场。
《查拉图斯特拉如是说》是尼采(Friedrich Wilhelm Nietzsch, 1844~1900)的作品。它不同于一般哲学作品,而是以散文诗完成。尼采曾表示这本书实际上是一部「交响曲」,以一种伪圣经风格撰写,它包含许多含糊不清且充满诗意的神秘箴言。
我没读通这本书,肤浅了解其主要思想是,人类应该拥抱生活、自然、身体和物质存在,包括其中的乐趣和痛苦,而非寻求超越或来世的精神世界。生活即使伴随着所有的苦难,还是值得为了它的存在而生活。
许多艺术家和作曲家受到《查拉图斯特拉如是说》的影响,但很少有人像史特劳斯那样深切融入尼采的哲学观点。1896年时32岁的史特劳斯开始创作 《查拉图斯特拉如是说》乐章。当时尼采因三期梅毒的感染,已精神失常。史特劳斯将自己作品的各个部分以尼采书中不同章节命名。他尝试将尼采抽象的文字清晰地翻译成同样抽象的器乐音乐。该作品在完成后几个月内进行首演,其华丽的编曲、复杂的音乐纹理、大胆的和谐和具争议性的主题,引发激烈的批评和喝采。
《2001太空漫游》使用这首乐曲开场为外太空的日出配乐,符合史特劳斯描绘尼采书中开场的山顶日出情境。开场中的小号旋律呈现「自然」或「世界之谜」动机;它在整个乐曲中反覆出现,象徵着大自然的冷漠和神秘性: 在强烈的开场之后,号角的回应是一个宗教式的旋律,由分散的弦乐器精彩演奏。开场时音乐从柔和到逐渐增强,象徵着人类对一个完美、天堂般、精神上的自然替代的渴望。
有了《2001太空漫游》的例子,我尝试以MusicTalk反推史特劳斯的音乐,想找出他想表现的意涵,却遭遇极大困难。史特劳斯曾经开玩笑地说,他可以在音乐中诉说一切,即使人们无法理解,我就是那位无法理解的人,妄想以物联网驾驭史特劳斯的音乐。
《查拉图斯特拉如是说》太过深奥,AI处理不来。我决定放弃好高骛远的做法,由小朋友听得懂的《彼得与狼》训练MusicTalk,总算有初步成果。这是一个基于物联网的创新音乐乐器检测系统。MusicTalk 引入了一种名为亮度特徵基础Patchout的新颖机制,以提高乐器检测的准确性,并超越现有解决方案。
MusicTalk首次系统性地将单个乐器检测器作为物联网设备进行整合,为与其他物联网设备的交互管理提供有效的方法。我们在MusicTalk中引入一个通用音频整形器,融合各种音乐公开数据集,如Audioset、OpenMIc-2018、MedleyDB、URMP和INSTDB。
我们利用Grand-CAM分析Mel-Spectrograms来优化 MusicTalk中ViT Patchout和CNN的组合,以实现前所未有的准确率。例如,小提琴检测的精确率和召回率分别达到96.17%和95.77%,这是所有方法中最高的。此外,MusicTalk 的另一个优势在于其基于物联网的视觉化能力。通过将乐器检测器作为物联网设备整合,MusicTalk能够使用动画Avatar来无缝地视觉化歌曲。
透过《彼得与狼》为例的案例研究,我们证明,改进的乐器检测准确性增强音乐的视觉叙事效果。与先前的方法相比,MusicTalk在这首歌曲上的F1分数提高12%。然而,我念念不忘的是,我们训练AI模型,何时能如同史特劳斯,了解尼采的想法。MusicTalk仍有很大的改进空间。
现为国立阳明交通大学资工系终身讲座教授暨华邦电子讲座,曾任科技部次长,为ACM Fellow、IEEE Fellow、AAAS Fellow及IET Fellow。研究兴趣为物联网、移动计算及系统模拟,发展出一套物联网系统IoTtalk,广泛应用于智能农业、智能教育、智能校园等领域/场域。兴趣多元,喜好艺术、绘画、写作,遨游于科技与人文间自得其乐,着有<闪文集>、<大桥骤雨>。