林一平
国立阳明交通大学资工系终身讲座教授暨华邦电子讲座
现为国立阳明交通大学资工系终身讲座教授暨华邦电子讲座,曾任科技部次长,为ACM Fellow、IEEE Fellow、AAAS Fellow及IET Fellow。研究兴趣为物联网、移動计算及系统模拟,发展出一套物联网系统IoTtalk,广泛应用于智能农业、智能教育、智能校园等领域/场域。兴趣多元,喜好艺术、绘画、写作,遨游于科技与人文间自得其乐,著有<闪文集>、<大桥骤雨>。
院长说院史(2):臺湾第一座国立信息学院
2007年初,交通大学校长换届,信息学院院长林进灯转任教务长。新任校长吴重雨指示我接任院长,同年2月正式上任。任内我推动3项核心改革:首先,建立原资工与资科教授的共治机制,加速两系融合;其次,创立联席会议制度,将传统三级三审的会议流程简化为二级,大幅提升行政效率;第三,确立「应用型研究」为学院定位,并与电子信息中心携手推动大型产学合作,为学术与产业接轨奠定基础。我始终强调「可执行性」的管理哲学:决策必须具体明确、务实可行。为消弭系所合并后的本位主义,我邀请前资科系主任简荣宏出任副院长,曾煜棋为资工系主任,同时赋予各研究所所长副系主任职权,建立责任分明的治理架构。人事安排考量专业能力,同时兼顾系所平衡与长远发展。在评鉴机制方面,我们选择不参与IEET认证,仅采教育部评鉴为基准。作为当年全臺唯一未参与IEET的工程学院,这项决策避免教研团队陷入形式化文书作业。我坚信:「教授应将精力投入教学与研究,而非应付评鉴文书。」此理念获得同仁广泛认同。学院定位承袭贝尔系统(Bell System)应用型研究精神,强调技术落地与产业价值。当时臺湾应用研究多集中在「发展」端,而美国「研用融合」的模式更具启发性。为此,我邀请工研院资通所所长林宝树担任学院的讲座教授,其于2009年接掌交大电资中心后,我们共同实践「电资中心与信息学院互为延伸」的愿景:重大計劃由电资中心统筹、学院教授参与;一般計劃则由教授独立执行,形成双向研发循环。在产学合作方面,我主导成立中华电信在交大设立研究中心,并于日后担任副校长时,将此经验推广至全校,创建校级研究中心制度。第一个校级中心是与联发科共建的平臺,接下来则有臺积电、广达、研华、华邦等指标企业相继进驻。这些中心设有专属行政窗口,简化统整智财管理与财务稽核流程,使企业能视研究中心为其研发部门的延伸。同时,我们首创「研究生工作年资认定」制度,强化企业留才诱因,实现产学研三赢。进入AI时代,我认为信息学院应与臺南校区的AI学院深化整合:前者巩固资通讯核心技术,后者注入AI研究能量。企业如今已从「工具应用」转向「流程革新」的AI思维。2024年,华邦电子研究中心选择落脚本院,正是看中AI驱动IC设计的跨界潜力。展望未来,信息教育须超越技术传授,著重培养2项AI难以取代的核心能力:批判性思维与原创性。唯有如此,学子方能在智能浪潮中彰显人类智能的真谛,这正是我对学院发展的最终期许。
2025-06-26
院长说院史(1):臺湾第一座国立信息学院
交大友声杂志《院长说院史》专访历任信息学院院长。身为2007至2011年间任职的院长,我接受蓝丽霞女士访问,回顾从学院草创至系所整合的关键历程。「故事要从2004年前说起。」我循著时间轴展开叙述。早在1997年担任信息工程学系主任时,我便注意到一项结构性矛盾:交大原有信息工程系(资工)隶属工学院,信息科学系(资科)则隶属理学院。自1994年并入新设的电机学院后,两系在定位与角色上日渐模糊,不仅反映软硬件学科间的不当分野,更直接影响招生策略与发展方向。尽管当时已有合并构想,但「电机学院下设大型信息系」的框架引发疑虑,計劃始终未能实现。为寻求突破,1999年卸任系主任后,我专程拜访华盛顿大学指导教授Ed Lazowska。该校信息系的跨域发展模式印证我的想法:「信息学科不该被动地附属于电机体系,而应主动建构多元的研究范式。」Prof. Lazowska 更提出數據科学的运作,如何将学院算力放置云端。这些前瞻见解在当年的臺湾是闻所未闻,更进一步重塑我的思维。从2000到2004年,我一直宣扬一所独立信息学院的想法。在当时交通大学电机电子主导工程学科的架构下,推动信息学院独立无异于挑战传统体制。所幸在张俊彦校长与蔡文祥教务长的支持下,学院筹备工作正式启动,由蔡教务长领衔规划。受Prof. Lazowska启发,我建议「一系多所」的创新架构:大学部整合为单一学系,研究所则依应用领域分设。这项打破常规的提案遭质疑,因为资工与资科两系都怕被对方并吞,沦为二等公民。最终在蔡教务长的关键协调下完成合并。2005年8月,交大成立全臺首座国立大学信息学院,原信息工程系与信息科学系合并为核心单位「信息工程学系」。回望当年,「一院一系多所」的设计不仅健全学院体质,也开启跨领域合作的新路径。学院成立后,我选择退居幕后,未参与首任院长遴选。
2025-06-25
军事通讯—说码人加密
军事通讯技不断精进,操作通讯系统的兵种就愈分愈细,最早只要一个旗兵。进入电子战后,通讯兵的分工还挺细的。例如话务通讯兵负责发送信號,而译电通讯兵负责接收信號。在体制上虽然是不同功能,但作战时,可没有那么讲究排场,话务和电译就由同一位通讯兵包办。这个兵种往往脑力操劳,要背诵一堆编码,防止通讯的内容被窃听。如何想出让敌人无法破解的口令,更是兵家必争。第二次大战时,德国使用Enigma加密机,配备于U-boat潜艇,行迹飘忽不定,在大西洋击沉大量盟军船只,急得英国首相邱吉尔(Winston Churchill )直跳脚。今日以自然语言AI技术模拟通讯者的生物特征及说话特性,成为加密的金钥,产生AI说码人系统的发展是一个令人感兴趣的领域。模拟通讯者的定制化特性,成为加密的金钥,军队早已采用,是所谓的「说码人」(Code Talkers)加密。说码人其实是话务/译电通讯兵,不同之处是他们像中国以前秘密帮派,会中兄弟谈机密时,就说起「帮派切口」,旁人听不懂。甲午战争时清朝曾以温州话加密;第一次世界大战时,美国采用巧克陶族(Choctaw)的印第安语传送机密军事信息,成功地攻击德军。德、日两国学到教训,在第一次大战后送一堆学生到美国学印第安语如Cherokee、Choctaw,和Comanche。美国军方发现此一现象后,担心德、日两国有能力解码,曾经考虑放弃「说码人」制度。此时一位工程师,也是第一次世界大战的退役军人江士顿(Philip Johnston)建议以鲜为人知的纳瓦荷语言来编码。江士顿从小生长在纳瓦荷印第安保留区,和纳瓦荷族人交往,熟悉纳瓦荷语言及习俗。纳瓦荷的语言结构复杂,较以前的印第安语言更适合用于加密。经过江士顿展示后,美国海军陆战队决定采用这个提案,立即征召雇用29名纳瓦荷族原住民,由他们开始编码工作,总共使用411个字汇。海军陆战队在第一层编码上再以字词取代(Word Substitution),做第二层的加密,例如「Gini」这个纳瓦荷字翻成英文是「Chicken Hawk」,而真正的军事用语是「俯冲轰炸机」(Dive Bomber)。第二次大战期间美国总共动用400位纳瓦荷族的说码人,这个口令一直到大战结束,都未曾被破解。很讽刺的是,1861年时,美国白人将最早的旗语通讯用于和纳瓦荷族的作战,而在第二次大战期间却靠纳瓦荷族来协助美军进行作战通讯,编入美国海军陆战队。2002年电影《猎风移動》叙述1944年,美军在太平洋塞班岛战场上,纳瓦荷族说码人的故事。这部电影点出很基本的人性问题。军方必须全力保护「加解密机」,可是当说码人这个「人肉加解密机」有落入敌人手中的疑虑时,必须先行毁灭。奉命执行毁灭任务的同袍如何下得了手?这个矛盾成为电影诠释的重点。当前科技发展已经实现加密的自动化和数据化,不再需要人工的介入。然而,利用自然语言人工智能(AI)技术来模拟通讯者的生物特征和说话特性,作为加密的金钥,这是否能够强化加密的效果呢?AI说码人系统的发展是一个引人注目的领域。通过应用自然语言处理和机器学习技术,AI能够模拟通讯者的生物特征和说话风格,成为加密的关键。然而,要建立一个全面且安全的说码人系统,需要深入了解特定语言、方言以及文化背景。此外,发展强大且安全的通讯系统还需要考虑超越仅透过文字互动可以实现的因素。目前,AI说码人系统的发展仍需更多的研究和努力。
2025-05-27
AI大语言模型无法驯服π
和一个人一生中相关的数字,都可以在圆周率的某一个位数找到。这是因为圆周率(π)是一个无理数,也就是说,它的十进制展开既不终止也不循环,并且其数字序列是随机的。尽管目前没有证据能证明圆周率的数字完全随机,数学家普遍认为圆周率的数字分布没有任何规律或模式,每个数字序列都有可能在某一位数中随机出现。这意味著,无论选择哪个数字组合,包括个人的生日、电话号码或重要年份等,理论上都能在圆周率的某个位置找到。这些数字可能会在圆周率的某个长段中出现一次或多次,具体位置由数字的随机分布决定。这种现象与数学中的均匀分布有关,这表示所有数字(0~9)在圆周率的各个位数上出现的机率理论上是相等的。因此,任何有限长度的数字组合都有可能出现在圆周率的某个位置。以最奇特方式运用圆周率的人,应属高德纳(Donald Ervin Knuth)。1969年时他开始发展一种计算机语言,让使用者能够以數字方式排版数学公式。接下来高德纳花十年功夫,设计一套论文排版系统TeX,并以圆周率来当开发版本编号,由TeX3开始,现在的版本是TeX 3.141592653。人类于四千年前就尝试找出π,但直到今日,我们仍然只是接近其实际数值。首次对π进行严格计算的,是西元前287至212年的希腊古数学家阿基米德Archimedes),他利用毕达哥拉斯定理计算内接于圆的正多边形与外接于圆的正多边形的面积,因为圆的实际面积必然介于这两者之间,因此这些多边形的面积提供了圆面积的上、下界。他明白这样只能得到π的近似值,而非其确切数值。透过这种方法,阿基米德推导出π介于3.1429与3.1408之间。2021年8月19日,瑞士格里松应用科技大学(University of Applied Sciences of the Grisons)计算出圆周率最精确的数值达62,831,853,071,796位数。有趣的是,神奇的AI大语言模型无法驯服π。我问7种大语言模型,却都给我不同答案。我询问和我相关的4个数字:「May I ask at which digit position 1026 appears in the digits of pi? 」结果每个LLM给我的答案都不同。过去的测试中,总会有几个LLM给出相同的答案,但这次完全没有共识。我先试GPT,得到答案6284。接著要求GPT自我验证:「What is the four-digit sequence starting at position 6284 in the digits of pi?」结果,得到的回复是7590,而非1026。我试Grok,得到的回复是1639,反向验证,也没得到1026,而是5807。我试Le Chat(Mistral.ai),得到的回复是176451,反向验证,得到3141。我试Qwen2.5-Max,得到的回复是39,反向验证,得到7169。我试DeepSeek,得到的回复是8580,反向验证,得到3099。我试Tulu 3,得到的回复是2480,反向验证,得到3282。我再试Gemini,得到的回复是175319,反向验证,他不告诉我答案,建议我找数学工具来算出。我最后试Claude,他不告诉我答案。这些大语言模型给错答案的原因是,它们试图自行编写程序来找答案,但程序未能正确运行。我询问Pi-Search页面,它回答说:「字串1026出现于位置14678。这个字串在π的前2亿位数字中出现20,130次。」这应该是正确答案。我的测试是在2025年2月24日。在告知GTP或Grok網絡上特定数学工具可给答案时,它们的确会认错,并依我建议,运用工具找到正确答案。随著大语言模型的进化,也许未来能在第一次询问时给出正确答案。
2025-04-14
AI程序开发助理—Devin与Cursor
苹果(Apple)創始人Steve Jobs 曾说:「Everybody should learn to program a computer, because it teaches you how to think.」随著人工智能(AI)技术的快速发展,AI撰写程序的能力已逐渐变强,可增人类的能力。许多AI辅助工具开始进入軟件开发领域,帮助开发者提高效率、减少错误,甚至自动完成部分重复性任务。终极目标是协助一般人像电脑工程师一样,利用「 learn to program a computer」来达到「how to think」的理想。目前较为热门的2款AI程序开发助理是Devin和Cursor,它们各自具备不同的特点与优势,适合不同的使用情境。Devin由Cognition开发,主要定位为一个自主的AI开发助手,能够执行完整的軟件开发流程,甚至能够独立完成某些开发任务。它具备高度的自主决策能力,可以设定开发环境、重现错误并进行修复,甚至执行軟件测试,无需开发者过多干预。使用者与Devin主要透过对话界面进行互动,开发者可以像管理人类工程师一样,指派任务并监控其进度。此外,它在一个安全的沙盒环境内执行,内建开发工具,能够与不同的技术堆叠无缝整合。Devin最大的优势在于高自主性,能够有效地帮助开发者处理从程序码撰写到测试的完整开发流程,适合希望让 AI 执行较为独立开发工作的团队或个人。Cursor则是一款AI强化的程序码编辑器,设计理念与 Devin不同,主要专注于提供實時AI协助,而非完全独立执行开发任务。Cursor的AI代理能够理解开发者的指令,并透过推理与工具整合,执行程序开发相关的任务,减少开发者的负担。其 AI 代理基于Composer平臺运作,使其可以与各种开发工具无缝连接。此外,它允许开发者导入扩充功能、主题、快捷键等,使其保持与传统开发环境一致的使用体验。同时,它提供隐私模式,确保程序码不会被線上储存,并符合SOC 2安全标准,适合对程序码隐私有高度要求的开发者。Cursor更适合习惯使用传统编辑器的开发者,能够提供實時的AI协助,减少开发过程中的繁琐工作,提高编码效率。这两款工具在自主性、使用方式与环境整合方面存在明显差异。Devin具备高度自主性,能够独立执行完整开发任务,而Cursor则更专注于實時AI辅助,适合需要持续手动操作的开发者。如果需要AI独立完成开发流程,Devin是更好的选择。如果希望在程序码编辑器内获得 AI 协助,并维持熟悉的开发环境,Cursor 是更理想的选择。Devin和Cursor代表2种不同的 AI 助理设计理念Devin 偏向于自动化与自主开发,Cursor则著重于辅助开发者完成日常编码工作。最终的选择取决于开发者的需求——如果希望 AI 来执行完整的开发任务,Devin 更具优势;如果更需要一款能够提高编码效率的AI编辑器,Cursor会是更合适的选择。随著 AI 技术的不断进步,这两款工具也将持续发展,未来可能会带来更多令人期待的功能与应用。
2025-03-21
伊莉莎白女王的虚实整合
2022年6月英国白金禧年(Platinum Jubilee)庆祝女王登基70周年活动中,伊莉莎白二世女王(Elizabeth II;1926~2022)的3D全像(Holography)被投射在金辉灿烂的皇家金马车(Gold State Coach)窗户上,这场景迅速吸引全球观众的目光,成为当天庆典的亮点之一。透过结合尖端科技与历史文物,这次盛事展现虚实整合(Cyber-Physical Integration)的非凡潜力。这项技术让历史融入现代生活,创新地连结过去与未来,为文化遗产的展示开启新篇章。虚实整合技术能實時监控、调整并优化现实世界的运作。这一技术已广泛应用于自动驾驶、智能城市与医疗等领域,而此次全像投影与金马车的结合,则将其创意应用拓展到文化与娱乐产业。女王3D影像投射于拥有260年历史的马车上,参与白金禧年游行,展现科技与历史的完美融合。伊莉莎白二世女王的3D影像取材自1953年女王26岁时加冕典礼的珍贵存档画面,经过數字化处理与分辨率提升后,这段影像得以在现代投影设备上清晰呈现。经由精密的投影技术,影像被准确映射到马车窗户上,营造出女王仿佛亲临现场的真实感。这种虚实结合的手法让观众仿佛回到1953年,见证女王加冕的历史时刻。金马车本身是一件艺术与工程的双重杰作。它于1762年完成,整体以鎏金木材制成,并饰有精美的天使、海神与狮子头雕刻,象征英国的国家力量与海上霸权。这辆马车长约7米、高约3.7米,重达4吨,由8匹马以步行速度拉动。马车内部同样豪华,以丝绸与天鹅绒装饰。这一历史文物多次经历修复,至今仍然完好,成为英国皇室的重要象征。将3D影像技术与拥有高度历史价值的金马车结合,是一项极具挑战性的技术工程。由于金马车的历史价值极高,工程师设计了非侵入性的安装方式,避免对文物造成损害。轻量化的投影设备被巧妙安装在马车内部及其周边,确保整体视觉效果不受干扰。为确保虚实完美融合,工程师需克服影像稳定性与同步性等技术难题。他们利用高精度追踪技术,确保影像与马车移动完美同步,并特别设计投影系统以降低窗户反光对影像品质的影响。这些技术突破为未来类似应用树立新标杆。伊莉莎白二世女王3D影像与金马车的结合,是虚实整合如何重新定义文化遗产的最佳例证。展望未来,虚实整合有望成为文化遗产保存与传承的核心技术。透过更多元的數字手段,历史文物可以超越地理与时间的限制,成为全球共享的资产。
2025-03-11
潜艇发展:从传统到數字时代的转变
随著科技的快速发展,潜艇技术也经历显著变革。从最早的阳春设计,到现代核动力潜艇(下称核潜艇)搭载先进的人工智能(AI)系统,潜艇的发展不仅改变海军战术,也推动全球海上安全与作战方式的变革。美国海军的首艘潜艇是由霍兰(John Philip Holland)发明,并于1900年正式服役,命名为「USS Holland;SS-1」。这艘潜艇长54英尺,对外通讯需浮出水面打旗语,虽然并不完美,但成功实现水下航行如鱼般的梦想。霍兰设计这艘潜艇,使其能够使用内燃机在水面行驶,并在潜水时切换到电动马达。她还配备舰首鱼雷发射管和气动砲(Dynamite gun,使用压缩空气发射砲弹)。最终,霍兰的设计赢得美国海军的青睐,并于1900年4月1日被正式购入,成为美国海军的第一艘实用型潜艇。二战期间,美国的潜艇部队发挥巨大的战斗潜力,尽管当时仅占海军兵力的1.6%,却成功击沉日本海军的3分之1及其近3分之2的商船队,对日本战争能力造成严重损害。猫鲨级(Gato class;与水面舰艇不同,彼时美国海军潜艇命名皆取名自水生动物)潜艇是美国在第二次世界大战期间首次大量生产的潜艇,生产期间为1941年至1943年。雷达、电子监视技术和通信技术的快速发展改变猫鲨级指挥塔水面部分的设计,以容纳新设备的桅杆和天线。战后,潜艇技术进入數字化的新时代。1950年代,美国海军推出了以流线型舰体设计的青花鱼号潜艇(USS Albacore;AGSS-569),突破水下航速限制。随后,1955年,美国海军的鹦鹉螺号(USS Nautilus;SSN-571)以核动力成功突破续航能力的瓶颈,标志著核潜艇时代的到来。而「移动声学通讯系统(MACS)」是鹦鹉螺号上的最后一项重大实验,将潜艇带入數字资通讯时代。核潜艇发展使得美国海军能够长时间保持隐匿移動,并在极深的海域潜行。这些潜艇不仅能在冰层下航行,甚至能在北极点浮出水面。1960年,美国核潜艇「USS Triton」(SSRN/SSN-586)成功完成环绕地球一周的水下航行,为潜艇战术的未来奠定基础。Triton的數字资通讯设计具创新性,配备先进的电子监视与通讯技术,176名船员更展示首代核潜艇在不被侦测的情况下,进行长程水下作战的能力。随后的洛杉矶级(Los Angeles class;自此级开始,美国海军潜艇改以城市命名之)攻击型核潜艇以及后来的战略核潜艇(指搭载可装载核弹头的潜射弹道飞弹的核潜艇),成为美国海军强大作战力量的一部分。这些潜艇更安静,配备更先进的數字资通讯子设备、傳感器和降噪技术。进入21世纪,随著數字化和AI技术的发展,潜艇的操作与战术也在持续进化。现代潜艇配备先进的自动化系统,从导航到攻击,都能依赖高效的數字技术来提升作战精度与反应速度。例如,现代潜艇的声纳系统结合深度学习技术,能精确识别水下目标并作出實時反应。此外,AI技术使潜艇能进行更有效的數據分析与处理,为指挥官提供實時战场情报,增强决策能力。
2025-02-04
卜瓦松:计数型AI分析的万灵丹
人工智能和机器学习中使用到卜瓦松分布(Poisson Distribution)。在贝叶斯推论(Bayesian inference),机率分布经常被用来解决原本难以处理的问题。其中一个具体的应用是卜瓦松回归,这是一种专门用于建模计数数据的回归分析方法。例如,卜瓦松回归可用于估算与搭乘飞机相关的感冒次数,或预测某个事件期间的紧急服务呼叫次数。卜瓦松回归是一种广义线性模型,其使用对数作为(典型)连结函数,并假设反应變量遵循卜瓦松分布作为其机率分布函数。卜瓦松分布提供简单而有效的数学框架,使得计数型AI分析变得更加精准和可解释。这个分布以发明者卜瓦松(Siméon Denis Poisson, 1781~1840)命名。我2015年参访巴黎的法兰西科学院(Académie des Sciences) 时,意外地看到卜瓦松的手稿。卜瓦松出生于法国的皮蒂维耶,自幼展现出非凡的数学才能,迅速成为19世纪最具影响力的数学家之一。他在机率论和解析力学方面做出突破性贡献,在数学和物理学界留下深远影响。他的卓越才能、谦逊和对知识的奉献继续激励著数学家和科学家,改变我们对机率、数理物理和解析力学的理解。1838年,他发表卜瓦松分布,这是一种适合描述单位时间内随机事件发生次数的机率分布。起初,卜瓦松分布并未有很多实际应用。波特凯维茨(Ladislaus Bortkiewicz, 1868~1931) 利用卜瓦松分布公式计算在20年的期间里,每年普鲁士军队每14名骑兵中被马踢死的人数。这是一个有趣的例子,但并非日常生活中适切的应用。后来,科学家发现卜瓦松分布可以广泛用于描述随机离散事件的发生,在物理学、生物学和金融学等领域证明其实用性。例如,在分析电话網絡的效能时,卜瓦松分布如同万灵丹。我在处理单位时间的通话次数时,总是先套用卜瓦松分布,事后验证,结果总是正确无误。1798年,卜瓦松以第一名成绩考进巴黎综合理工学院,追随老师拉普拉斯(Pierre-Simon Laplace) 的足迹,两人情同父子。卜瓦松和拉普拉斯合作促成开创性的研究论文和各自领域的进一步发展。卜瓦松往往能将拉普拉斯的研究成果加以扩展。例如,我在进行电话系统效能评估时,常会用到拉普拉斯方程序及卜瓦松方程序。拉普拉斯方程序没有源项(source term),这意味著它是齐次的(homogeneous)。卜瓦松方程序有源项,这意味著拉普拉斯算子(Laplacian) 应用于一个标量值函数(scalar valued function) 时不一定为零。卜瓦松方程序本质上是拉普拉斯方程序的一种广义形式。尽管拥有巨大的才华和成就,卜瓦松以其谦逊、低调和对工作的奉献著称。他保持谦逊,专注于知识的追求。卜瓦松的遗产超越他的数学和科学成就,对学习的热情和对知识追求的奉献激励著全世界有志于数学和科学的人。 人生只有两样美好的事情:发现数学和教数学。—卜瓦松
2025-01-08
AI也难突破哥德尔不完备定理
哥德尔(Kurt Friedrich Gödel;1906~1978)在现代逻辑上的成就是独特而伟大的。事实上,哥德尔的成就不仅是一座学术纪念碑,更是长久屹立于学术历史中的地标。逻辑学科因为哥德尔的成就而彻底改变其本质与发展可能性。在哥德尔的伟大成就中,他的不完备定理(Incompleteness Theorems)是数理逻辑中的基本结果,宣示形式系统的内在局限性,尤其是那些能够表达基本算术的系统。第一定理表明,任何足够强大且一致的形式系统都不可能完备,这意味著该系统内会有无法使用自身证明的真命题。第二定理进一步指出,没有一个系统能够证明自身的一致性。大型语言模型(LLM),如GPT-4,可以协助数学定理的证明,但与传统方法相比,它们仍有明显的限制。这些模型可以提出想法、建议步骤或提供解释,这些都可能在证明构建过程中发挥作用。它们能处理某些符号运算并形式化某些证明,特别是那些遵循已知模式或来自数学文献中的证明。然而,LLM无法从零开始进行复杂或新颖定理的深度推论,因为它们的回应基于数据模式,而非形式逻辑推导。一些专门设计来证明定理的AI系统,如Coq、Lean和Isabelle,依赖严格的形式逻辑,并能生成完全角式化的证明,且这些证明可经过验证确保其正确性。相比之下,大型语言模型缺乏对逻辑和数学结构的形式理解。然而哥德尔的定理表明,某些真理无法由这些AI系统确立,且复杂系统的一致性无法从系统内部证明。AI无法「打破」哥德尔定理,因为这些定理是逻辑学的基本结果。它们适用于任何具有一定复杂性的形式系统,并且已被证明无误。由于AI运行依赖形式逻辑,它同样受到哥德尔不完备定理的根本限制。尽管AI无法打破哥德尔的定理,但它能帮助探讨这些定理的影响,模拟不同的逻辑系统,并研究这些限制在各类数学框架中的具体表现。然而,AI无法独立证明复杂或新颖的定理,也无法突破哥德尔不完备定理所设下的限制。哥德尔说:「我只相信先验的真理。世界的意义在于愿望与事实的分离。数学要么对人类心智而言过于庞大,要么人类心智不仅仅是一部机器。事物本身与谈论事物之间是有区别的(I only believe in a priori truth. The meaning of world is the separation of wish and fact. Either mathematics is too big for the human mind or the human mind is more than a machine. There is a difference between a thing and talking about a thing.)在AI的协助下,我们或许能够进一步探索数学的深邃领域,扩展人类心智的理解范围。
2024-11-29
让MusicTalk诉说敲击的故事
2024年10月6日,我到国家戏剧院观赏朱宗庆打击乐团击乐剧场《六部曲》。打击音乐水准极高,让观众感受到洗涤心灵的音乐飨宴。国家戏剧院是一座智能剧院,舞臺背后设有巨型银幕,能与表演者进行虚实结合的互动。表演过程中,银幕上出现浮云、瀑布、抽象光影等动画。感觉上打击乐器与银幕图像较无實時地关联。在我脑海中浮现的是各种打击乐器的實時梅尔频谱图 (mel spectrogram)。梅尔频谱图是一种变形的频谱图,常运用于语音处理和机器学习。它与频谱图类似,显示音频信号随时间变化的频率内容,但其频率轴不同。我发展一套AI工具MusicTalk,其中一个功能可以實時分辨出一首乐曲中同时演奏的乐器种类。MusicTalk将乐器的声音转换为梅尔频谱,并以特殊AI演算法分析,准确度接近95%,是迄今最准确的方法。我在开发MusicTalk时,研究许多打击乐器的梅尔频谱图,因此在《六部曲》的演奏过程中,各种变化多端的梅尔频谱图不断在我脑海中浮现。将抽象动画与敲击声音连结并不容易,若能将敲击声音与科学结合,将更具意义。第一位以科学系统化赋予敲击声意义的是奥恩布鲁格(Leopold Auenbrugger, 1722~1809)。他是旅馆老板的儿子,在维也纳大学接受医学教育,深受Gerard van Swieten影响。1761年,他出版小书《新发明》(Inventum novum),成为以叩诊法(percussion in the diagnosis)诊断胸部疾病的第一人。尽管传说他的发现灵感来自童年敲打父亲酒桶的经历,但更可能的是他敏锐的音乐耳朵让他能分辨出胸部病变过程中的音调变化。他描述各种病变如何导致叩诊时音调转变为不同音色,如「高音」(sonus altior 或鼓音)、「低音」(sonus obscurior 或模糊音)、或「钝音」(sonus carnis percussae 或肉叩音)。这些发现后来得到临床诊断的实证。奥恩布鲁格一生酷爱音乐,经常在家中举行午后音乐聚会,莫札特 (Wolfgang Amadeus Mozart, 1756~1791) 一家也曾受邀参加。他的2个女儿都很会弹钢琴,宾客们曾评论说:「她们两人,尤其是姐姐,弹得非常好,并且极具音乐天赋。」10年后,莫札特为萨尔茨堡(Salzburg)创作一些新歌剧,其中之一是日耳曼喜剧《烟囱清洁工》(Der Rauchfangkehrer)。该剧于1781年首次在维也纳国家歌剧院上演,剧本正是由奥恩布鲁格撰写。奥恩布鲁格的音乐艺术天分无庸置疑,能以极具创意的方式将器具的敲击声赋予科学 (医学) 的意义。奥恩布鲁格的成就,影响我对利用敲击工具(乐器)解释科学现象的兴趣。我开发出 AI 工具 WatermelonTalk,能将拍打西瓜的声音分为4类,代表不同的成熟度,准确度高达94%,是迄今最精准的成熟度判定方法。在聆听《六部曲》时,我期望编剧者能充分利用如MusicTalk这类AI工具,以科学方式利用未来剧院的智能银幕,呈现敲击乐器的特征,使观众更能理解乐器所表达的内涵,进一步促进音乐与科技的深度结合。
2024-10-31
智能应用 影音