智能应用 影音
Microchip
ADI
林一平
  • 国立阳明交通大学资工系终身讲座教授暨华邦电子讲座
现为国立阳明交通大学资工系终身讲座教授暨华邦电子讲座,曾任科技部次长,为ACM Fellow、IEEE Fellow、AAAS Fellow及IET Fellow。研究兴趣为物联网、移动计算及系统模拟,发展出一套物联网系统IoTtalk,广泛应用于智能农业、智能教育、智能校园等领域/场域。兴趣多元,喜好艺术、绘画、写作,遨游于科技与人文间自得其乐,着有<闪文集>、<大桥骤雨>。
AI也难突破哥德尔不完备定理
哥德尔(Kurt Friedrich Gödel;1906~1978)在现代逻辑上的成就是独特而伟大的。事实上,哥德尔的成就不仅是一座学术纪念碑,更是长久屹立于学术历史中的地标。逻辑学科因为哥德尔的成就而彻底改变其本质与发展可能性。在哥德尔的伟大成就中,他的不完备定理(Incompleteness Theorems)是数理逻辑中的基本结果,宣示形式系统的内在局限性,尤其是那些能够表达基本算术的系统。第一定理表明,任何足够强大且一致的形式系统都不可能完备,这意味着该系统内会有无法使用自身证明的真命题。第二定理进一步指出,没有一个系统能够证明自身的一致性。大型语言模型(LLM),如GPT-4,可以协助数学定理的证明,但与传统方法相比,它们仍有明显的限制。这些模型可以提出想法、建议步骤或提供解释,这些都可能在证明构建过程中发挥作用。它们能处理某些符号运算并形式化某些证明,特别是那些遵循已知模式或来自数学文献中的证明。然而,LLM无法从零开始进行复杂或新颖定理的深度推论,因为它们的回应基于数据模式,而非形式逻辑推导。一些专门设计来证明定理的AI系统,如Coq、Lean和Isabelle,依赖严格的形式逻辑,并能生成完全角式化的证明,且这些证明可经过验证确保其正确性。相比之下,大型语言模型缺乏对逻辑和数学结构的形式理解。然而哥德尔的定理表明,某些真理无法由这些AI系统确立,且复杂系统的一致性无法从系统内部证明。AI无法「打破」哥德尔定理,因为这些定理是逻辑学的基本结果。它们适用于任何具有一定复杂性的形式系统,并且已被证明无误。由于AI运行依赖形式逻辑,它同样受到哥德尔不完备定理的根本限制。尽管AI无法打破哥德尔的定理,但它能帮助探讨这些定理的影响,模拟不同的逻辑系统,并研究这些限制在各类数学框架中的具体表现。然而,AI无法独立证明复杂或新颖的定理,也无法突破哥德尔不完备定理所设下的限制。哥德尔说:「我只相信先验的真理。世界的意义在于愿望与事实的分离。数学要麽对人类心智而言过于庞大,要麽人类心智不仅仅是一部机器。事物本身与谈论事物之间是有区别的(I only believe in a priori truth. The meaning of world is the separation of wish and fact. Either mathematics is too big for the human mind or the human mind is more than a machine. There is a difference between a thing and talking about a thing.)在AI的协助下,我们或许能够进一步探索数学的深邃领域,扩展人类心智的理解范围。 
2024/11/29
让MusicTalk诉说敲击的故事
2024年10月6日,我到国家戏剧院观赏朱宗庆打击乐团击乐剧场《六部曲》。打击音乐水准极高,让观众感受到洗涤心灵的音乐飨宴。国家戏剧院是一座智能剧院,舞台背后设有巨型银幕,能与表演者进行虚实结合的互动。表演过程中,银幕上出现浮云、瀑布、抽象光影等动画。感觉上打击乐器与银幕图像较无实时地关联。在我脑海中浮现的是各种打击乐器的实时梅尔频谱图 (mel spectrogram)。梅尔频谱图是一种变形的频谱图,常运用于语音处理和机器学习。它与频谱图类似,显示音频信号随时间变化的频率内容,但其频率轴不同。我发展一套AI工具MusicTalk,其中一个功能可以实时分辨出一首乐曲中同时演奏的乐器种类。MusicTalk将乐器的声音转换为梅尔频谱,并以特殊AI演算法分析,准确度接近95%,是迄今最准确的方法。我在开发MusicTalk时,研究许多打击乐器的梅尔频谱图,因此在《六部曲》的演奏过程中,各种变化多端的梅尔频谱图不断在我脑海中浮现。将抽象动画与敲击声音连结并不容易,若能将敲击声音与科学结合,将更具意义。第一位以科学系统化赋予敲击声意义的是奥恩布鲁格(Leopold Auenbrugger, 1722~1809)。他是旅馆老板的儿子,在维也纳大学接受医学教育,深受Gerard van Swieten影响。1761年,他出版小书《新发明》(Inventum novum),成为以叩诊法(percussion in the diagnosis)诊断胸部疾病的第一人。尽管传说他的发现灵感来自童年敲打父亲酒桶的经历,但更可能的是他敏锐的音乐耳朵让他能分辨出胸部病变过程中的音调变化。他描述各种病变如何导致叩诊时音调转变为不同音色,如「高音」(sonus altior 或鼓音)、「低音」(sonus obscurior 或模糊音)、或「钝音」(sonus carnis percussae 或肉叩音)。这些发现后来得到临床诊断的实证。奥恩布鲁格一生酷爱音乐,经常在家中举行午后音乐聚会,莫札特 (Wolfgang Amadeus Mozart, 1756~1791) 一家也曾受邀参加。他的2个女儿都很会弹钢琴,宾客们曾评论说:「她们两人,尤其是姐姐,弹得非常好,并且极具音乐天赋。」10年后,莫札特为萨尔茨堡(Salzburg)创作一些新歌剧,其中之一是日耳曼喜剧《烟囱清洁工》(Der Rauchfangkehrer)。该剧于1781年首次在维也纳国家歌剧院上演,剧本正是由奥恩布鲁格撰写。奥恩布鲁格的音乐艺术天分无庸置疑,能以极具创意的方式将器具的敲击声赋予科学 (医学) 的意义。奥恩布鲁格的成就,影响我对利用敲击工具(乐器)解释科学现象的兴趣。我开发出 AI 工具 WatermelonTalk,能将拍打西瓜的声音分为4类,代表不同的成熟度,准确度高达94%,是迄今最精准的成熟度判定方法。在聆听《六部曲》时,我期望编剧者能充分利用如MusicTalk这类AI工具,以科学方式利用未来剧院的智能银幕,呈现敲击乐器的特徵,使观众更能理解乐器所表达的内涵,进一步促进音乐与科技的深度结合。 
2024/10/31
物联网医疗复健机
中风是全球导致死亡和致残的主要原因之一,其中由运动障碍引起的功能性残疾是中风后常见的问题。约60%的中风患者在中风后失去行走能力,20%的患者在1年后仍无法独立行走。恢复行走能力在中风康复中至关重要,直接影响患者的生活品质。传统的物理治疗和职能治疗计划,历来支持中风后的神经和功能恢复,但结果往往难以预测。为改进康复策略,机器人辅助步态训练(Robot-assisted gait training;RAGT)这种创新方法应运而生,专注于改善行走能力。RAGT透过重复特定任务,促进运动学习和功能改进。这项技术使患者能够参与高强度的训练,例如在10分钟内完成300步,减少依赖物理治疗师。结合物联网技术,RAGT进一步强化中风后的神经和功能恢复。RAGT有2种方法:末端效应器法和外骨骼法。在末端效应器法中,患者的脚放在足板上,模拟步态的站立和摆动阶段;在外骨骼法中,外骨骼装置透过驱动装置,在摆动阶段弯曲髋部和膝盖,并配合跑步机模拟站立阶段。综合研究深入探讨这些方法的临床、技术和监管层面的应用,为临床医生提供了有关机器人康复潜在恢复机制的宝贵见解。被动训练模式和重力补偿功能为处于急性或亚急性阶段的中风患者提供早期康复,使他们能够专注于运动控制。透过病历查阅,收集参与者特徵、中风细节和合并症信息,同时透过脑部CT或MRI提供病变位置和中风类型的信息。为评估治疗前日常生活活动(ADLs)的独立性,须对病人进行多项评估,包括Berg平衡量表(BBS)、Brunnstrom阶段、匹兹堡睡眠品质指数、Fugl-Meyer下肢功能评估(FMA-LE)和总分(FMA-total)。在慢性中风患者的研究中,常使用POMA的移动性能评估来衡量平衡和步态,并使用BBS来测量姿势控制和平衡。这些参数在评估和定制康复干预计划以达到最佳结果。下肢运动功能主要涉及平衡和步态,这些元素是相互关联的,在中风后经常下降。BBS以其在衡量平衡功能中的高信度和重测信度而着称,特别适用于中风幸存者的评估。步态分析是下肢运动功能的重要评估工具,推荐用于评估和增强中风后的行走能力。结合BBS和步态分析可全面评估平衡和步态,作为衡量康复干预效果的重要参数。这一综合方法提供了对患者在恢复移动能力和执行日常任务进展的全面理解。利用物联网技术,我们在中国医药大学开发出一套系统MRGtalk,这是一款针对中风及神经障碍引起的下肢康复的应用辅助前端系统,提升老年人的肢体活动和身体健康。MRGtalk使用普适计算(Pervasive Computing)进行下肢康复,强调肌肉力量的改善和行走能力的增强,包含:1. 增强感官反馈的三点支撑设计促进全负重的站立踏步训练;2.根据个人能力,可通过具有网页浏览器的固定或移动设备远程调整训练参数(步长、频率、轨迹和持续时间);3.多患者独立训练模式优化时间和精力的使用。作为应用辅助前端,MRGtalk输出关键的训练参数。临床实验显示,其在改善中风患者的下肢肌肉功能、平衡和行走能力方面具有良好效果。MRGtalk简化RAGT过程,减少了治疗师提供手动辅助的需求,是资通讯技术运用于复健的一个典范。
2024/9/25
透过物联网技术 抢救小猪大作战
在猪养殖业中,仔猪死亡率是一个需要仔细处理的严重问题。特别是,在头三天里,有7.5%的仔猪会被母猪意外压死。平均每天有1.2头仔猪被母猪压死。具体来说,仔猪压死可能发生在母猪躺下或翻身时。这样的事故更容易发生在较弱的仔猪身上,因为较弱的仔猪更有可能靠近母猪吸乳。此外,当产房温度较低时,仔猪也会更靠近母猪保暖。因此,为了防止仔猪被母猪压死,我们应该避免仔猪饿和受冷。或者,可以使用产房笼来限制母猪的姿势变化,并为仔猪提供更安全的空间。当一头仔猪被压死时,养猪者必须在太迟之前迅速采取移动。一位技术娴熟的养猪者可以通过仔猪的尖叫声来检测仔猪的死亡,并强迫母猪站起来或将被压死的仔猪与母猪分开。然而,监控产房笼对养猪者来说是一项全天候的工作,而劳动成本过高。物联网技术可由麦克风感应器中收集猪的声音数据,并在仔猪被压死时自动采取移动。我的研究团队利用 IoTtalk 的物联网设备管理平台,提出了 PigTalk 技术,来解决仔猪被压死的问题。透过对产房收集的声音数据进行实时分析,PigTalk 检测是否有任何仔猪尖叫事件发生,并自动启动母猪警报器进行应急处理。PigTalk利用一种音频转换方法来预处理原始声音数据,并在机器学习中利用最小-最大标度化来检测仔猪的尖叫声。PigTalk以上述数据预处理方法与机器学习模型微妙的参数设置将仔猪尖叫检测准确度提高到了 99.4%,比以前的解决方案(最高达 92.8%)更好。PigTalk 可以在 0.05 秒内拯救 99.93% 的仔猪。这样的结果已在商业化的产房得到验证。PigTalk 是一种新方法,可以自动减轻仔猪被压死的情况,这是过去无法实现的。PigTalk提供一个线上操控的GUI (graphical user interface),猪场饲主可用手机控制强迫母猪站起来的致动器(Actuator)。图(a)提供的致动器包括振动地板、气流喷射、洒水系统和电极(有些不太人道,并未真正实作)。当猪场饲主收到警报时,他/她通过手机观看从摄像机 (图(b)) 发送来的视频,并可操作摄影机放大影像,清楚观察(图(c)) 。如果仔猪的尖叫声不是由于被压死引起的,那麽养猪者可以远程停止致动器 (图 (f))。如果确实发生了仔猪压死,则他/她应该跑到笼子处理这个仔猪压迫事件。养猪者可以选择打开或关闭致动器 (图 4 (a)),当危险情况得到缓解时停止致动器。在PigTalk中,环境致动器例如加热灯可以手动打开/关闭 (图 4 (d)),或者在温度变化时自动打开/关闭 (图 4 (e))。PigTalk抢救小猪大作战是运用AI及物联网技术的很好范例。关于技术的详细信息,请参阅W. E. Chen, Y.-B. Lin, L.-X. Chen (2021, June). PigTalk: an AI-based IoT Platform for Piglet Crushing Mitigation. IEEE Transactions on Industrial Electronics, 17(6): 4345-4355。 
2024/8/20
妖姬的跳频
台湾中山科学研究院在无线通讯的跳频技术(Frequency Hopping)上有很深的着墨。这项技术能有效地防止敌人的无线电干扰。今日乌俄战争中,高档的无人空中载具都充分运用跳频技术,让士兵能线上操作无人机,不受干扰。很多人可能想像不到,跳频技术的发明人是电影《霸王妖姬》(Samson and Delilah)的女主角「妖姬」海蒂·拉玛(Hedy Lamarr, 1914~2000)。这部电影获得第23届奥斯卡金像奖。拉玛发明跳频技术的动机并非要运用于空中的飞机,而是水中的鱼雷(Torpedo)。第一款鱼雷是白头鱼雷(Whitehead Torpedo),制造于1866年,以其发明者怀海德(Robert Whitehead)命名。过去的漂移水雷必须被动等待敌舰撞上,而白头鱼雷内建动力,可主动攻击敌人目标。1895年的甲午战争,日本帝国海军以鱼雷重创清朝北洋舰队定远号战舰,证明了鱼雷以小博大的实际战果。日俄战争期间,俄罗斯帝国海军与日本帝国海军互相使用鱼雷攻击敌方舰艇。然而军事专家在日俄海战过程中发现,鱼雷实在是无甚作用。日俄共发射近600枚鱼雷,只击沉数艘船舰,其余80多艘船舰是被传统炮火击沉。特斯拉(Nikola Tesla;1856~1943)很早就发现鱼雷的缺点,向美国军方游说无线电导引鱼雷的可行性,但遭到拒绝。特斯拉的想法超前军方太多,而日俄战争证实特斯拉建议的必要性。美国海军恍然大悟,开始在第一次世界大战时研发无线电控制的鱼雷,称之为哈蒙德鱼雷(Hammond Torpedo)。1930年代的拉玛白天忙着拍电影,晚上则一直想点子,希望帮助盟军打赢第二次世界大战;她向休斯(Howard Hughes, Jr., 电影《钢铁人》中男主角爸爸的原型)提出飞机机翼的设计,并被休斯采用;她也构想出发泡片剂,让在前线作战的军人将片剂融入水中,就可以变成可乐畅饮。1940年,拉玛在宴会上遇到钢琴家安瑟(George Antheil, 1900~1959)。在钢琴边闲聊之际,拉玛忽然想到一个秘密通讯的方法,可发展出抵挡敌人电波干扰鱼雷的控制。当时的无线通讯使用固定频率,除了容易被拦截干扰外,还时常有断讯问题。拉玛看着安瑟手边的琴键,灵机一动:「就像弹奏钢琴的不同琴键一样,时常改变通讯的频率就可以达到防止敌人电波干扰的目的。」安瑟按照拉玛的想法,藉由他所熟悉的自动钢琴,开发出一个能够自动编译口令的模型,也就是今天我们熟悉的跳频技术。这项技术不但扩大通讯量,并且成功将通讯内容加密,并于1942年取得美国专利。拉玛将这个贡献提供给美国军方。军方不认为电影明星和钢琴家的奇思妙想能够真的实现,劝拉玛将发挥她其他方面的天分,利用她的美貌帮军方募款。拉玛只好将她伟大的发明搁置一旁,到处宣传,帮政府募到2,500万美元的战争债券。拉玛说:「希望和对未来的好奇心,似乎比保证的事物更好。这就是我的方式。未知的事物对我总是如此有吸引力……现在依然如此 (Hope and curiosity about the future seemed better than guarantees. That's the way I was. The unknown was always so attractive to me... and still is)。」
2024/8/7
不学AI不会输在起跑点?
人工智能(AI)对城市发展有着深远的影响,一般市民和地方产业应该了解如何运用AI。在新竹县政府和新竹县议会指导下,新竹县工业会支持成立了AI产业发展联盟。希望能全面提升新竹县县民、企业和公部门对AI产业转型的认识。联盟成立启动仪式上,所有的音乐、影片和开场歌曲都是由AI数码生成,参与的民众对于AI的发展潜力和表现感到既惊艳又大开眼界。我在大会演讲指出,AI技术发展迅速且多元,平均每两至三个星期就有新技术产出。因此,我希望集结联盟的力量,帮助大家找到产业所需的AI技术,并降低AI机器设备的成本。为了吸引听众的注意力,我在演讲的投影片上写道:「不学AI不会输在起跑点,而是会死在起跑点。」这句话引发了观众的哄堂大笑,但也让大家认真思索AI对他们个人的影响。一般群众分不清判别式(Discriminative)AI和生成式(Generative)AI,因此我以自己的研究为例,说明两者的区别。判别式AI根据输入数据进行分类或标签,经过训练后能识别每个类别特有的模式和特徵,并根据这些模式进行预测。而生成式AI则着重于构建能生成与训练数据相似的新数据的模型,这些模型学习训练数据的潜在概率分布,并从中生成新样本。了解不同AI技术本质,就更清楚如何运用这些技术。新竹县AI产业发展联盟将致力于解决县内重要议题,例如提升新竹县的数码治理,以及帮助中小企业理解并促成AI转型。未来,联盟将通过举办讲座、企业参访、研讨会等活动,甚至是个别企业谘询和技术小聚,来媒合技术与需求,同时协助企业争取中央的计划补助。新竹县政府拼经济是首要工作,而AI更是重要的发展项目,公部门的科技治理应时时贴近民意,透过AI的智能服务,让民众生活更加美好。今年暑期7月份的AI课程在短短不到一周的时间内便报名爆满。未来将针对不同产业需求,加开相关课程,例如劳工如何运用AI科技、如何通过AI改善愈来愈壅塞的交通问题等。甚至将引进认证课程,让企业能深入了解AI转型的技术。欢迎有兴趣的企业夥伴一同加入,共同努力发展先进的县市智能应用。
2024/7/11
雷达的趣闻
乌克兰与俄罗斯战争中使用的雷达技术玲琅满目。这些技术涉及监视雷达、防空雷达,以及由双方部署的战场监视系统。这些雷达系统用于侦测飞机、导弹或地面活动的系统。这些雷达技术是哪些厉害人物发明的?麻省理工学院辐射实验室在第二次世界大战时期将电磁波的研究发挥得淋漓尽致,对于雷达(Radar)的发展有不可磨灭的贡献,也产生出多位诺贝尔奖得主,包括创造「核磁共振」这个名词的拉比 (Isidor Isaac Rabi, 1898~1988), 在1937年确实验证原子核的角动量,而于1944年获颁诺贝尔物理奖。薄赛尔 (Edward Purcell, 1912~1997) 与布洛赫 (Felix Bloch, 1905~1983)因发现在外加磁场下,所有物质只要是有奇数个质子或中子皆可以形成共振现象,能发射特定射频信号,而在1952年荣获诺贝尔物理奖。这项发现早期应用在化学物质的检测上。薄赛尔得诺贝尔奖时好像只有发表6篇论文。阿瓦雷兹 (L.W. Alvarez, 1911~1988) 因制成第一部质子直线加速器,以及对基本粒子研究发展的贡献,而荣获诺贝尔物理奖。冉济(Norman F. Ramsey, 1915~2011) 发展出分离的震荡场方法及其在氢迈射和其他原子钟上的应用。第二次世界大战期间列强的战争需求使得先进科学技术得以快速的发展,于是雷达就出现了。大战期间,德国空军老是跨海轰炸伦敦,让英国烦不胜烦,急需一种探测空中金属物体的技术,能在反空袭战中帮助查找德国飞机。雷达的最早构想来自于沃森瓦爵士 (Sr. Robert Watson-Watt, 1892~1973),希望与美国携手合作,共同打击德军。于是上述这群伟大科学家的电磁波研究集中火力,在战争时期发展出地对空、空对地搜索轰炸、空对空截击火控,以及敌我识别功能的雷达技术,德军闻之丧胆。战后雷达有多项民生应用。例如微波炉(所谓的「雷达烤箱」)深受家庭主妇喜爱;雷达测速器则成为汽车超速者的克星。沃森瓦开车超速曾被雷达测速器抓到罚钱,对于自己推动这项发明的应用,反让他自食恶果,啼笑皆非。 
2024/7/4
西瓜熟了没?拍打西瓜的AI
在西瓜的商业生产过程中,农民必须在收获后迅速评估水果的成熟度,根据可食用时间分类,以减少损失。这个过程提升市场销售和生产力,但传统的西瓜测试方法通常不可靠。当你购买西瓜时,成熟度测试是一个有趣的「仪式」。一般家庭主妇将西瓜成熟度分类为2个等级:未成熟和成熟;农夫在西瓜田的识别则分为3个等级,包括未熟类(不要碰)、成熟类(作为商品选择)和过熟类(需要丢弃)。许多人分享他们测试西瓜成熟度的经验。其中最具创意的一个方法是使用稻草技术,将一根稻草水平放在西瓜上。成熟的西瓜会使稻草旋转45度,而未熟的西瓜则保持静止。这种说法认为稻草的运动是由西瓜内部的电力作用引起的。我多次尝试这种方法未果,只好放弃,改变方向,研究其他方法。虽然像拍打、颜色检查和计日等手动技术具有实用性,但其准确性依赖于主观判断。目前,普遍使用的方法是通过拍击声音来评估西瓜的成熟度。这种拍打技术出奇地具有逻辑性,因为产生的声音提供了足够的成熟度指标。然而,对这些声音的个人解读受主观经验和传统智能的影响。我思考是否能利用AI及物联网(IoT)来进行大量快速的西瓜成熟度的拍击评估。在我研究团队的辛勤工作后,提出WatermelonTalk技术。这是一个基于物联网的实时深度学习平台,专为声学西瓜测试设计。我们还引入了「拍打合奏\(tapping ensemble)的概念,显着提升预测准确性,这在文献中尚未出现。我们邀请农友种苗公司的专家将343个品种的1,698个西瓜按成熟度分类,利用深度机器学习,首次探讨四级测试,其中将三级测试中的未成熟类进一步细分为未成熟类和半熟类。比起未成熟类,农民更关注半熟类,须确保对其进行比未成熟类更频繁的测试。这样做是为了防止这些半熟西瓜在下一次测试时过熟。我们的研究在三级测试中达到97.64%的测试准确性,而在四级测试中达到94.07%的显着准确性,这是声学框架中的最佳结果。三级测试可供消费者在购买西瓜时使用,而四级测试则作为农民专业生产的工具。西瓜有不同的成熟程度,选择适当的成熟度会大大影响西瓜的味道和质地。在收获后迅速评估水果的成熟度,通过可食用时间进行分类,可显着降低收获后的损失。因此,WatermelonTalk帮助农民仔细衡量西瓜的成熟度,提升市场销售和生产力,彰显AI对日常生活的贡献。关于技术的详细信息,请参阅Yun-Wei Lin, Yi-Bing Lin, Wen-Liang Chen, Chia-Hui Chang, and Han-Kuan Li, Watermelons Talk: Predicting Ripeness through Tapping, 将刊登于IEEE Internet of Things Magazine。
2024/6/24
AI解析音乐与尼采如是说
我以AI物联网分析音乐,并利用其结果来驱动乐器的演奏,称之为MusicTalk。接下来就想训练大型语言模型(LLM),将文字与音乐互换,再将音乐用来诠释影像。最大的应用是电影配乐。要将音乐智能化以配合影像,科技人必须对音乐的内涵有深入的认识。例如电影的配乐最让人印象深刻的是1968年电影《2001太空漫游》(2001: A Space Odyssey)中用史特劳斯(Richard Strauss, 1864~1949)演绎《查拉图斯特拉如是说》(Thus Spake Zarathustra)这首乐曲的开场。《查拉图斯特拉如是说》是尼采(Friedrich Wilhelm Nietzsch, 1844~1900)的作品。它不同于一般哲学作品,而是以散文诗完成。尼采曾表示这本书实际上是一部「交响曲」,以一种伪圣经风格撰写,它包含许多含糊不清且充满诗意的神秘箴言。我没读通这本书,肤浅了解其主要思想是,人类应该拥抱生活、自然、身体和物质存在,包括其中的乐趣和痛苦,而非寻求超越或来世的精神世界。生活即使伴随着所有的苦难,还是值得为了它的存在而生活。许多艺术家和作曲家受到《查拉图斯特拉如是说》的影响,但很少有人像史特劳斯那样深切融入尼采的哲学观点。1896年时32岁的史特劳斯开始创作 《查拉图斯特拉如是说》乐章。当时尼采因三期梅毒的感染,已精神失常。史特劳斯将自己作品的各个部分以尼采书中不同章节命名。他尝试将尼采抽象的文字清晰地翻译成同样抽象的器乐音乐。该作品在完成后几个月内进行首演,其华丽的编曲、复杂的音乐纹理、大胆的和谐和具争议性的主题,引发激烈的批评和喝采。《2001太空漫游》使用这首乐曲开场为外太空的日出配乐,符合史特劳斯描绘尼采书中开场的山顶日出情境。开场中的小号旋律呈现「自然」或「世界之谜」动机;它在整个乐曲中反覆出现,象徵着大自然的冷漠和神秘性: 在强烈的开场之后,号角的回应是一个宗教式的旋律,由分散的弦乐器精彩演奏。开场时音乐从柔和到逐渐增强,象徵着人类对一个完美、天堂般、精神上的自然替代的渴望。有了《2001太空漫游》的例子,我尝试以MusicTalk反推史特劳斯的音乐,想找出他想表现的意涵,却遭遇极大困难。史特劳斯曾经开玩笑地说,他可以在音乐中诉说一切,即使人们无法理解,我就是那位无法理解的人,妄想以物联网驾驭史特劳斯的音乐。《查拉图斯特拉如是说》太过深奥,AI处理不来。我决定放弃好高骛远的做法,由小朋友听得懂的《彼得与狼》训练MusicTalk,总算有初步成果。这是一个基于物联网的创新音乐乐器检测系统。MusicTalk 引入了一种名为亮度特徵基础Patchout的新颖机制,以提高乐器检测的准确性,并超越现有解决方案。MusicTalk首次系统性地将单个乐器检测器作为物联网设备进行整合,为与其他物联网设备的交互管理提供有效的方法。我们在MusicTalk中引入一个通用音频整形器,融合各种音乐公开数据集,如Audioset、OpenMIc-2018、MedleyDB、URMP和INSTDB。我们利用Grand-CAM分析Mel-Spectrograms来优化 MusicTalk中ViT Patchout和CNN的组合,以实现前所未有的准确率。例如,小提琴检测的精确率和召回率分别达到96.17%和95.77%,这是所有方法中最高的。此外,MusicTalk 的另一个优势在于其基于物联网的视觉化能力。通过将乐器检测器作为物联网设备整合,MusicTalk能够使用动画Avatar来无缝地视觉化歌曲。透过《彼得与狼》为例的案例研究,我们证明,改进的乐器检测准确性增强音乐的视觉叙事效果。与先前的方法相比,MusicTalk在这首歌曲上的F1分数提高12%。然而,我念念不忘的是,我们训练AI模型,何时能如同史特劳斯,了解尼采的想法。MusicTalk仍有很大的改进空间。 
2024/5/27
论AI的自由与约束
在人工智能(AI)迅速发展的环境中,有关伦理问题以及可能限制其发展的辩论变得日益突出。透过密尔(John Stuart Mill, 1806~1873)的作品《论自由》(On Liberty),我们可以探索合理限制AI发展的观点,强调在合理的范围内,个体自由、进步和追求知识的重要性。密尔的《论自由》被严复翻译为「群己权界论」,奠定理解社会控制和个人自由平衡的基础。我试图将密尔的哲学应用于当前AI发展的时代背景,以了解如何界定群己权。密尔主张自由开放的思想交流(Self-Development),或「思想市场」 (marketplace of ideas),是社会进步的重要因素。在AI发展的领域中,不受限制的信息和创新概念流动促进多元观点环境,有助于知识的成长。密尔强调个体自治(Individual Autonomy)。正如个体应该自由追求自己的兴趣和自我发展,AI系统作为人类创造力的延伸,应赋予演进和适应的自主权,以改善人类生活并应对复杂社会挑战。AI的发展改善人类生活,并增强应对复杂社会挑战的能力。在此过程中,必须尊重使用者的个体权益,并促进社会和谐。密尔的伤害原则主张(The Harm Principle),限制个体自由的唯一理由是防止对他人造成伤害。密尔的哲学也告诉我们须负责任地谨慎开发AI系统,遵从道德准则并优先考虑人类福祉,让其发展不会产生本质性的伤害。在AI算法的训练中,如果基于不公正的数据集或缺乏多样性而导致歧视性结果,则应限制这类不公平和歧视性的AI应用,确保考虑到社会的多样性。然而,我们很难限制AI算法,避免其误入歧途。 可行的方法是在AI芯片的设计中,直接加入艾西莫夫(Isaac Asimov, 1920~1992)的机器人三定律(Three Laws of Robotics),并在芯片制成过程中,将其直接写入硬件。密尔警告多数的专制(The Tyranny of the Majority),强调压制少数意见的危险。例如社交媒体平台的AI算法过度强调某一特定观点,可能形成信息泡泡(filter bubble),多数用户仅看到和接触到相似的意见和观点。这样的专制可能使得不同意见的少数群体的声音被忽视,并进一步加剧社会的分裂和不理解。密尔倡导紧密连结社会进步与知识和创新 (Societal Progress and Innovation) 的追求。AI是人类巧思的体现,从医疗到教育等各个领域实现变革性的进步。然而,AI发展也必须有序权界,社会才会健康的前进。密尔的《论自由》为深入探讨AI发展提供重要的伦理框架,强调拥抱个体自由、思想市场和知识追求的原则,是推动人类进步的核心价值。然而,在引导AI发展时,必须谨慎遵循负责任的道德原则。我们可以探索合理限制AI发展的观点,引导未来AI的方向,确保其符合人类整体利益,并实现可持续、负责任且对人类有益的发展。
2024/5/14