智能应用 影音
DWebinar0814
ST Microsite
林一平
  • 国立阳明交通大学资工系终身讲座教授暨华邦电子讲座
现为国立阳明交通大学资工系终身讲座教授暨华邦电子讲座,曾任科技部次长,为ACM Fellow、IEEE Fellow、AAAS Fellow及IET Fellow。研究兴趣为物联网、移动计算及系统模拟,发展出一套物联网系统IoTtalk,广泛应用于智能农业、智能教育、智能校园等领域/场域。兴趣多元,喜好艺术、绘画、写作,遨游于科技与人文间自得其乐,着有<闪文集>、<大桥骤雨>。
不学AI不会输在起跑点?
人工智能(AI)对城市发展有着深远的影响,一般市民和地方产业应该了解如何运用AI。在新竹县政府和新竹县议会指导下,新竹县工业会支持成立了AI产业发展联盟。希望能全面提升新竹县县民、企业和公部门对AI产业转型的认识。联盟成立启动仪式上,所有的音乐、影片和开场歌曲都是由AI数码生成,参与的民众对于AI的发展潜力和表现感到既惊艳又大开眼界。我在大会演讲指出,AI技术发展迅速且多元,平均每两至三个星期就有新技术产出。因此,我希望集结联盟的力量,帮助大家找到产业所需的AI技术,并降低AI机器设备的成本。为了吸引听众的注意力,我在演讲的投影片上写道:「不学AI不会输在起跑点,而是会死在起跑点。」这句话引发了观众的哄堂大笑,但也让大家认真思索AI对他们个人的影响。一般群众分不清判别式(Discriminative)AI和生成式(Generative)AI,因此我以自己的研究为例,说明两者的区别。判别式AI根据输入数据进行分类或标签,经过训练后能识别每个类别特有的模式和特徵,并根据这些模式进行预测。而生成式AI则着重于构建能生成与训练数据相似的新数据的模型,这些模型学习训练数据的潜在概率分布,并从中生成新样本。了解不同AI技术本质,就更清楚如何运用这些技术。新竹县AI产业发展联盟将致力于解决县内重要议题,例如提升新竹县的数码治理,以及帮助中小企业理解并促成AI转型。未来,联盟将通过举办讲座、企业参访、研讨会等活动,甚至是个别企业谘询和技术小聚,来媒合技术与需求,同时协助企业争取中央的计划补助。新竹县政府拼经济是首要工作,而AI更是重要的发展项目,公部门的科技治理应时时贴近民意,透过AI的智能服务,让民众生活更加美好。今年暑期7月份的AI课程在短短不到一周的时间内便报名爆满。未来将针对不同产业需求,加开相关课程,例如劳工如何运用AI科技、如何通过AI改善愈来愈壅塞的交通问题等。甚至将引进认证课程,让企业能深入了解AI转型的技术。欢迎有兴趣的企业夥伴一同加入,共同努力发展先进的县市智能应用。
2024/7/11
雷达的趣闻
乌克兰与俄罗斯战争中使用的雷达技术玲琅满目。这些技术涉及监视雷达、防空雷达,以及由双方部署的战场监视系统。这些雷达系统用于侦测飞机、导弹或地面活动的系统。这些雷达技术是哪些厉害人物发明的?麻省理工学院辐射实验室在第二次世界大战时期将电磁波的研究发挥得淋漓尽致,对于雷达(Radar)的发展有不可磨灭的贡献,也产生出多位诺贝尔奖得主,包括创造「核磁共振」这个名词的拉比 (Isidor Isaac Rabi, 1898~1988), 在1937年确实验证原子核的角动量,而于1944年获颁诺贝尔物理奖。薄赛尔 (Edward Purcell, 1912~1997) 与布洛赫 (Felix Bloch, 1905~1983)因发现在外加磁场下,所有物质只要是有奇数个质子或中子皆可以形成共振现象,能发射特定射频信号,而在1952年荣获诺贝尔物理奖。这项发现早期应用在化学物质的检测上。薄赛尔得诺贝尔奖时好像只有发表6篇论文。阿瓦雷兹 (L.W. Alvarez, 1911~1988) 因制成第一部质子直线加速器,以及对基本粒子研究发展的贡献,而荣获诺贝尔物理奖。冉济(Norman F. Ramsey, 1915~2011) 发展出分离的震荡场方法及其在氢迈射和其他原子钟上的应用。第二次世界大战期间列强的战争需求使得先进科学技术得以快速的发展,于是雷达就出现了。大战期间,德国空军老是跨海轰炸伦敦,让英国烦不胜烦,急需一种探测空中金属物体的技术,能在反空袭战中帮助查找德国飞机。雷达的最早构想来自于沃森瓦爵士 (Sr. Robert Watson-Watt, 1892~1973),希望与美国携手合作,共同打击德军。于是上述这群伟大科学家的电磁波研究集中火力,在战争时期发展出地对空、空对地搜索轰炸、空对空截击火控,以及敌我识别功能的雷达技术,德军闻之丧胆。战后雷达有多项民生应用。例如微波炉(所谓的「雷达烤箱」)深受家庭主妇喜爱;雷达测速器则成为汽车超速者的克星。沃森瓦开车超速曾被雷达测速器抓到罚钱,对于自己推动这项发明的应用,反让他自食恶果,啼笑皆非。 
2024/7/4
西瓜熟了没?拍打西瓜的AI
在西瓜的商业生产过程中,农民必须在收获后迅速评估水果的成熟度,根据可食用时间分类,以减少损失。这个过程提升市场销售和生产力,但传统的西瓜测试方法通常不可靠。当你购买西瓜时,成熟度测试是一个有趣的「仪式」。一般家庭主妇将西瓜成熟度分类为2个等级:未成熟和成熟;农夫在西瓜田的识别则分为3个等级,包括未熟类(不要碰)、成熟类(作为商品选择)和过熟类(需要丢弃)。许多人分享他们测试西瓜成熟度的经验。其中最具创意的一个方法是使用稻草技术,将一根稻草水平放在西瓜上。成熟的西瓜会使稻草旋转45度,而未熟的西瓜则保持静止。这种说法认为稻草的运动是由西瓜内部的电力作用引起的。我多次尝试这种方法未果,只好放弃,改变方向,研究其他方法。虽然像拍打、颜色检查和计日等手动技术具有实用性,但其准确性依赖于主观判断。目前,普遍使用的方法是通过拍击声音来评估西瓜的成熟度。这种拍打技术出奇地具有逻辑性,因为产生的声音提供了足够的成熟度指标。然而,对这些声音的个人解读受主观经验和传统智能的影响。我思考是否能利用AI及物联网(IoT)来进行大量快速的西瓜成熟度的拍击评估。在我研究团队的辛勤工作后,提出WatermelonTalk技术。这是一个基于物联网的实时深度学习平台,专为声学西瓜测试设计。我们还引入了「拍打合奏\(tapping ensemble)的概念,显着提升预测准确性,这在文献中尚未出现。我们邀请农友种苗公司的专家将343个品种的1,698个西瓜按成熟度分类,利用深度机器学习,首次探讨四级测试,其中将三级测试中的未成熟类进一步细分为未成熟类和半熟类。比起未成熟类,农民更关注半熟类,须确保对其进行比未成熟类更频繁的测试。这样做是为了防止这些半熟西瓜在下一次测试时过熟。我们的研究在三级测试中达到97.64%的测试准确性,而在四级测试中达到94.07%的显着准确性,这是声学框架中的最佳结果。三级测试可供消费者在购买西瓜时使用,而四级测试则作为农民专业生产的工具。西瓜有不同的成熟程度,选择适当的成熟度会大大影响西瓜的味道和质地。在收获后迅速评估水果的成熟度,通过可食用时间进行分类,可显着降低收获后的损失。因此,WatermelonTalk帮助农民仔细衡量西瓜的成熟度,提升市场销售和生产力,彰显AI对日常生活的贡献。关于技术的详细信息,请参阅Yun-Wei Lin, Yi-Bing Lin, Wen-Liang Chen, Chia-Hui Chang, and Han-Kuan Li, Watermelons Talk: Predicting Ripeness through Tapping, 将刊登于IEEE Internet of Things Magazine。
2024/6/24
AI解析音乐与尼采如是说
我以AI物联网分析音乐,并利用其结果来驱动乐器的演奏,称之为MusicTalk。接下来就想训练大型语言模型(LLM),将文字与音乐互换,再将音乐用来诠释影像。最大的应用是电影配乐。要将音乐智能化以配合影像,科技人必须对音乐的内涵有深入的认识。例如电影的配乐最让人印象深刻的是1968年电影《2001太空漫游》(2001: A Space Odyssey)中用史特劳斯(Richard Strauss, 1864~1949)演绎《查拉图斯特拉如是说》(Thus Spake Zarathustra)这首乐曲的开场。《查拉图斯特拉如是说》是尼采(Friedrich Wilhelm Nietzsch, 1844~1900)的作品。它不同于一般哲学作品,而是以散文诗完成。尼采曾表示这本书实际上是一部「交响曲」,以一种伪圣经风格撰写,它包含许多含糊不清且充满诗意的神秘箴言。我没读通这本书,肤浅了解其主要思想是,人类应该拥抱生活、自然、身体和物质存在,包括其中的乐趣和痛苦,而非寻求超越或来世的精神世界。生活即使伴随着所有的苦难,还是值得为了它的存在而生活。许多艺术家和作曲家受到《查拉图斯特拉如是说》的影响,但很少有人像史特劳斯那样深切融入尼采的哲学观点。1896年时32岁的史特劳斯开始创作 《查拉图斯特拉如是说》乐章。当时尼采因三期梅毒的感染,已精神失常。史特劳斯将自己作品的各个部分以尼采书中不同章节命名。他尝试将尼采抽象的文字清晰地翻译成同样抽象的器乐音乐。该作品在完成后几个月内进行首演,其华丽的编曲、复杂的音乐纹理、大胆的和谐和具争议性的主题,引发激烈的批评和喝采。《2001太空漫游》使用这首乐曲开场为外太空的日出配乐,符合史特劳斯描绘尼采书中开场的山顶日出情境。开场中的小号旋律呈现「自然」或「世界之谜」动机;它在整个乐曲中反覆出现,象徵着大自然的冷漠和神秘性: 在强烈的开场之后,号角的回应是一个宗教式的旋律,由分散的弦乐器精彩演奏。开场时音乐从柔和到逐渐增强,象徵着人类对一个完美、天堂般、精神上的自然替代的渴望。有了《2001太空漫游》的例子,我尝试以MusicTalk反推史特劳斯的音乐,想找出他想表现的意涵,却遭遇极大困难。史特劳斯曾经开玩笑地说,他可以在音乐中诉说一切,即使人们无法理解,我就是那位无法理解的人,妄想以物联网驾驭史特劳斯的音乐。《查拉图斯特拉如是说》太过深奥,AI处理不来。我决定放弃好高骛远的做法,由小朋友听得懂的《彼得与狼》训练MusicTalk,总算有初步成果。这是一个基于物联网的创新音乐乐器检测系统。MusicTalk 引入了一种名为亮度特徵基础Patchout的新颖机制,以提高乐器检测的准确性,并超越现有解决方案。MusicTalk首次系统性地将单个乐器检测器作为物联网设备进行整合,为与其他物联网设备的交互管理提供有效的方法。我们在MusicTalk中引入一个通用音频整形器,融合各种音乐公开数据集,如Audioset、OpenMIc-2018、MedleyDB、URMP和INSTDB。我们利用Grand-CAM分析Mel-Spectrograms来优化 MusicTalk中ViT Patchout和CNN的组合,以实现前所未有的准确率。例如,小提琴检测的精确率和召回率分别达到96.17%和95.77%,这是所有方法中最高的。此外,MusicTalk 的另一个优势在于其基于物联网的视觉化能力。通过将乐器检测器作为物联网设备整合,MusicTalk能够使用动画Avatar来无缝地视觉化歌曲。透过《彼得与狼》为例的案例研究,我们证明,改进的乐器检测准确性增强音乐的视觉叙事效果。与先前的方法相比,MusicTalk在这首歌曲上的F1分数提高12%。然而,我念念不忘的是,我们训练AI模型,何时能如同史特劳斯,了解尼采的想法。MusicTalk仍有很大的改进空间。 
2024/5/27
论AI的自由与约束
在人工智能(AI)迅速发展的环境中,有关伦理问题以及可能限制其发展的辩论变得日益突出。透过密尔(John Stuart Mill, 1806~1873)的作品《论自由》(On Liberty),我们可以探索合理限制AI发展的观点,强调在合理的范围内,个体自由、进步和追求知识的重要性。密尔的《论自由》被严复翻译为「群己权界论」,奠定理解社会控制和个人自由平衡的基础。我试图将密尔的哲学应用于当前AI发展的时代背景,以了解如何界定群己权。密尔主张自由开放的思想交流(Self-Development),或「思想市场」 (marketplace of ideas),是社会进步的重要因素。在AI发展的领域中,不受限制的信息和创新概念流动促进多元观点环境,有助于知识的成长。密尔强调个体自治(Individual Autonomy)。正如个体应该自由追求自己的兴趣和自我发展,AI系统作为人类创造力的延伸,应赋予演进和适应的自主权,以改善人类生活并应对复杂社会挑战。AI的发展改善人类生活,并增强应对复杂社会挑战的能力。在此过程中,必须尊重使用者的个体权益,并促进社会和谐。密尔的伤害原则主张(The Harm Principle),限制个体自由的唯一理由是防止对他人造成伤害。密尔的哲学也告诉我们须负责任地谨慎开发AI系统,遵从道德准则并优先考虑人类福祉,让其发展不会产生本质性的伤害。在AI算法的训练中,如果基于不公正的数据集或缺乏多样性而导致歧视性结果,则应限制这类不公平和歧视性的AI应用,确保考虑到社会的多样性。然而,我们很难限制AI算法,避免其误入歧途。 可行的方法是在AI芯片的设计中,直接加入艾西莫夫(Isaac Asimov, 1920~1992)的机器人三定律(Three Laws of Robotics),并在芯片制成过程中,将其直接写入硬件。密尔警告多数的专制(The Tyranny of the Majority),强调压制少数意见的危险。例如社交媒体平台的AI算法过度强调某一特定观点,可能形成信息泡泡(filter bubble),多数用户仅看到和接触到相似的意见和观点。这样的专制可能使得不同意见的少数群体的声音被忽视,并进一步加剧社会的分裂和不理解。密尔倡导紧密连结社会进步与知识和创新 (Societal Progress and Innovation) 的追求。AI是人类巧思的体现,从医疗到教育等各个领域实现变革性的进步。然而,AI发展也必须有序权界,社会才会健康的前进。密尔的《论自由》为深入探讨AI发展提供重要的伦理框架,强调拥抱个体自由、思想市场和知识追求的原则,是推动人类进步的核心价值。然而,在引导AI发展时,必须谨慎遵循负责任的道德原则。我们可以探索合理限制AI发展的观点,引导未来AI的方向,确保其符合人类整体利益,并实现可持续、负责任且对人类有益的发展。
2024/5/14
等待AI果陀
2024年的台湾国际科展邀请我进行大师讲座,分享AI「做中学」。生成式AI(generative AI)的出现,对人文及科学会造成不小影响,很多高中老师避免思考生成式AI对他们专业的影响。生成式AI开始侵袭某专业时,专业人士难免有抗拒之反应。过去对「专业」无条件的接受,似乎是台湾学校教育的普世价值,今日,这种执着很危险。当生成式AI辗压人类的专业时,或许正是我们进行反思的最好时刻。专业知识的灌输并不足以培育完整的个体。通过专业教育,虽然可以训练一个人成为实用的工具,但不能保证他能成为一个和谐发展的人。培养学生对价值观的理解和情感上的投入更为重要。他们需要具备对美和道德的敏锐识别力,以建立更全面的个人发展。否则,即便拥有丰富的专业知识,可能只是像一只经过良好训练的狗。生成式AI最擅长学习专业,更容易胜过人类,被训练成为比人类更厉害的机器狗。全盘接受「专业」不对,完全臣服于「生成式AI」也不妥。要避免被AI取代,必须超越专业训练的思维,思考自己本业能更进一步创造的价值。这个价值是甚麽,会随领域而不同,只能各自尝试体会。贝克特(Samuel Beckett, 1906~1989)说: 「尝试过、曾经失败过, 没关系。 再试一次、 再次失败,我们会失败得更好。」这是我们面对AI时代的状况。必须「我无法继续下去,但我会继续。」贝克特是上世纪五十年代「荒谬剧场」的主要作家之一。「荒谬剧场」主要成员是欧洲剧作家,以荒谬小说戏剧而闻名,探讨当人类失去存在目的时会发生什麽,展示从逻辑沟通到非理性和不合逻辑,最终导致沉默的过程。贝克特于1969年获颁诺贝尔文学奖,表彰他以小说和戏剧的形式,在现代人的贫困中获得卓越(in the destitution of modern man acquires its elevation)。贝克特的许多作品都聚焦于人类在生活中无法克服的荒谬情境,包括《墨菲》(Murphy;1938年)、《等待果陀》(Waiting for Godot;1953年)、《克拉普的最后录音》(Krapp’s Last Tape ;1958年)和《幸福时光》(Happy Days ;1961年)。 这几本书很值得年轻学子阅读,从中寻找AI造成人类贫困时代(destitution)的生存之道(elevation)。年轻人可能迷惘于等待何种AI果陀,但千万不要气馁躺平。马克吐温如是说: 「 二十年后,你将会感到更多的失望。你会对于未做的事情感到遗憾,而不是对于你已经做过的事情。这意味着,要避免这种结果,你必须摆脱阻碍你的限制。远离安全的港湾,投身于狂风肆虐之地。探索、梦想并勇往直前。」 在AI时代,必须如此。《等待果陀》的果陀是何物,贝克特没揭晓答案,因此众说纷纭。等待果陀,时光易逝。布朗宁(Robert Browning)说: 「和我一起变老!最好的尚未来到,……青年不过展现人生一半:相信上帝,看见所有,也不要惧怕!!」在AI时代读此句子,更有感触。我希望,年轻的学子终能找到他们的AI果陀。 
2024/4/29
Jony Ive的设计思维
我曾经以iPhone为载具,发明一种具有位置传感功能的万用无线遥控器。当你在房间中指向任何家电(如冷气机)时,iPhone会自动成为该家电的遥控器。这一类的创意是基于智能手机的发展而来。智能手机已成为一个重要的硬件平台,可以发挥创意,特别是在拍照摄影功能方面,可以开发出许多创意应用,甚至改变人们的行为方式,被《生活》(Life)杂志誉为Cameraphone Revolution(摄影手机革命)。而iPhone的成功,其中的一位功臣是艾夫(Jonathan Ive,习称Jony Ive)。他是当时苹果的首席设计师,在推动移动创意方面有关键性的影响力。艾夫的创新作品包括iPod、iMac、MacBook Air、iPhone和iPad。他对细节的狂热关注超越表面的外观。这些作品的关键特点在于使用的便利性和简洁性。作为一个艺术设计师,艾夫与科技专家Steve Jobs密切合作,共同创造出具有艺术品味的科技产品。艾夫的标志性设计象徵着当时处于低谷的苹果(Apple)的复兴和重返巅峰。在科技领域中,很少有设计具有如此大的影响力。艾夫的透明且丰富多彩、同时极简洁的美学成为苹果成功的关键所在。他为苹果设计光滑且符合人体工学的产品,彻底改变科技设计,并为个人通讯设备建立新的美学标准。艾夫的设计方法受到Dieter Rams的影响。从美学和哲学的角度来看,Rams的设计原则贯穿艾夫的作品。艾夫于1992年加入苹果,那时正是公司遭遇困难、几乎面临破产的时期。他对公司只专注于电脑科技感到担忧,他说:「我曾担心周旋于以电脑科技本位的事业部门,并涉足各种产品的广泛领域会很困难。然而,出乎我的意料,这并未成为问题,因为我们设计的是包含许多不同组件的系统,包括耳机、遥控器、鼠标、扬声器和电脑。我喜欢在这些相对较新的产品类别中工作,专注于基础的创新设计。即使只是参与一个产品的开发,也能立即改变整个产品类型和相关系统的历史。」艾夫和苹果的成功因素在于其设计工作室的运作方式,类似于一家外部设计公司,但只为苹果这个单一客户服务,并位于公司的核心位置。这个工作室的规模非常小而可控。尽管苹果拥有数万名员工,但艾夫的设计工作室只有约20名设计师和同样数量的支持人员。最重要的是,艾夫的团队有权将他们的设计实现为最终产品。艾夫的团队主动参与产品的开发,而非仅仅被动设计。iMac和其他数十种产品并不是由苹果的工程团队主导,而是在艾夫的设计工作室中构思出来的。苹果以前曾以工程为主导,但Jobs和艾夫改变这种思维,让当时的苹果非常重视设计。艾夫告诉《时代》(Times)杂志:「物品和它们的制造是不可分割的。如果你了解一个产品是如何制造的,你就能在思考产品的外观之前,了解它们的用途、工作原理以及应该使用什麽材料制造。这种工艺的概念正在复兴。」艾夫与Jobs对此有着相同的看法,艾夫表示:「我清楚记得Jobs宣布,我们的目标不仅仅是赚钱,而是创造出伟大的产品。这种理念所做的决策与过去苹果的决策截然不同。」Jobs和艾夫建立了一个强大的工作关系,这成为苹果成功的核心,Jobs甚至称艾夫为他在苹果的「精神伴侣」。2012年,艾夫被英国皇室封爵。尽管获得荣耀,艾夫强调:「我不喜欢独自受到关注。设计、工程和制造这些产品需要大型团队的努力。」台湾资通讯的学生往往搞不懂问题前就开始做专题。结果是浪费时间。我们应该牢记艾夫的话,在最初的设计下功夫: 「在设计过程的开始,一个小小的改变就能在最终产品中定义出完全不同的产品(A small change at the beginning of the design process defines an entirely different product at the end.)。」 
2024/4/17
智能城乡应用永续经营三关键
新竹县政府主办一场「智能城乡论坛」,我受邀担任下半场综合讨论的与谈人。题目为「以公私合作推动智能城乡发展」,由行政处长周秋尧及都市发展与环境教育基金会荣誉会长林建元共同担任主持人,分享智能城市发展前景与趋势,及新竹县面临的机会与挑战。会场听众询问,新竹县发展智能城乡的策略为何? 对于智能城乡应用的永续经营,我认为应该考虑3个问题:首先,要清楚区分必要与非必要(Must-have or Nice-to-have)。将智能城市应用区分为「必备」或「可有可无」反映它们对日常生活产生影响的不同程度。在某些情况下,这些应用的存在或缺乏可能不会显着改变城市居民的日常体验。然而,必须承认这些应用的成功或失败取决于它们的功能性以及它们是否能够融入城市结构。以智能家庭应用而言,电动窗帘大家都感新奇。但要花大钱建置,可能就无人问津。因此这是一个「可有可无」的应用,而非「必备」的应用。第二,需分析维运成本(CAPEX vs OPEX)。很多应用勉强建置,无力维护。智能城市应用的失败案例包括未能满足期望或缺乏必要基础设施的情况。此类缺陷可能包括使用者界面不足、数据处理效率低下或连接性不足。这些挫折强调在部署智能城市解决方案之前,进行健全规划和充分测试的重要性。台湾的失败案例不胜枚举,一个成功案例是YouBike,很务实地在许多台湾的城镇提供服务。在国内大陆,很多类似YouBike的服务太过花俏,OPEX太高而失败。第三,要能够选择有用数据(To data or not to data)。不知如何使用数据,就不会有智能城乡。我提出智能农业的成功案例,是我们帮兰花工厂进行非影像兰花黑头侦测的应用。城市最应该运用的数据是交通数据。而智能路灯是最好的载具,应在现有的路灯挂上智能平台,而非取代现有路灯系统。在台湾,许多智能城市应用的存在与否并未对居民的日常生活产生显着影响,他们的生活维持着往常的方式。而很多「必备」的智能城市应用都是因为政府法规要求。在卫福部一个显着而成功的案例是在医疗应用中推广快速医疗互通资源(FHIR)。FHIR已成为医疗保健领域的一股变革力量,促进电子健康记录的安全交流,并在各种医疗系统之间促进互操作性。其成功是对设计良好且有效实施的智能城市应用在关键领域(尤其是医疗保健)中可能产生积极影响的明证。智能城市应用失败的主要原因是将简单的问题复杂化,同时缺乏解决问题的实际移动力。很务实的解决上述3个问题,智能城市有永续经营的机会。我给的答案,应该都适用于所有城市。
2024/4/2
罗夏克测试与大型语言模型
我一直尝试将不同的工具和大型语言模型(LLM)结合,这是将传统软件工具进行数码转型最快的方式。例如曾将鱼骨图管理加上ChatGPT,效果甚佳。接下来我想尝试将LLM和罗夏克墨渍图结合,进行心理投射测试时。然而,我尝试将ChatGPT和罗夏克墨渍图」(Rorschach Inkblot Test)结合,进行心理投射测试时,ChatGPT的表现就有点荒腔走板,言不由衷。罗夏克测试使用10个墨渍图案,每个墨渍图案几乎具有完美的对称性。其中5个墨渍是黑墨,2个是黑墨和红墨,另外3个是彩色的。这些墨渍图并非随机或偶然的设计,罗夏克(Hermann Rorschach, 1884~1922)精心设计每一个墨渍图,使其尽可能具有模棱两可和「矛盾」的特点。罗夏克将墨渍图开发为诊断精神分裂症的工具。后继者则扩大使用于一般的个性测试。无论是在心理学还是文化上,这个测试本身有着惊人的生命力。罗夏克测试不仅仅关于你看到什麽,更重要的是你如何看待它。大多数的墨水渲染看起来像无意义的形状,但罗夏克墨渍图确实可以看出不同的东西,给个人的创造力留下空间,但这些墨水渲染也有一种真实的结构,可以客观地检查你所看到的东西是否符合标准或超出范畴。罗夏克是一位瑞士精神科医生,曾师从荣格(Carl Gustav Jung)。相较于罗夏克,弗洛伊德是一位文字型的人,他的心理学完全关乎言语疗法,因此早期如ChatGPT的LLM较容易插入(plug in)弗洛伊德的测试。罗夏克认为,看见比说话更深刻,我们如何看待事物更能展示出我们是谁。最近,多模式学习模型(Multimodal LLM)就更能适应罗夏克的测试。罗夏克在发明测试后不久就去世了,此测试在他无法控制的情况下朝着各种不同的方向发展。在美国,神秘的内在风格、个人魅力,是什麽让你在人群中脱颖而出等特性,皆以不同罗夏克测试的变形版进行测验。第二次世界大战爆发,罗夏克测试被大量运用于临床心理学领域。它被用于纽伦堡的纳粹审判,也被用于越战期间丛林中的农民。专家对于不同被测者的反应会有奇妙的解读。例如,您如果在10张卡片中有4个以上的性(Sexual)回应,可能暗示存在精神分裂症;如果被测试者的性回应过少,可能暗示性挫折。罗夏克在墨点卡片湿润的状态下将它们沿中心轴对摺,使它们都具有对称性,被测者很容易将它们旋转90度,解读它们像是水中的倒影。若被测者是罪犯,则镜像回应被用来区分精神病患者和非精神病患者。对图形细节的关注可以解释为冲动或警觉性,亦即能够看到他人忽视的事物。然而,如果过于关注细节,则可能表示对平凡事物的着迷,僵化的强迫性思维,有时还可能涉及偏执狂。之后有大量论文发表对各种对象的测试,有些光怪陆离,有些还颇为搞笑。罗夏克测试引发许多争议,一些严谨的学者开始展开研究。一项于2013年进行的重要研究,回顾所有与该测试所声称测量的方面相关的研究,剔除不够严谨的部分后,证实当前的罗夏克测试的可行性。这些墨水测试具有客观的视觉特性,测试本身有着具体的历史和用途,只要按照特定的方式运作,其结果就有意义。罗夏克测试显然不是容易驾驭的工具,若能巧妙地以微调模型或检索增强生成(RAG)融入LLM,其威力必然大增。
2024/3/20
香侬的智能
香侬(Claude Shannon, 1916~2001)被誉为信息理论之父。图灵(Alan Turing, 1912~1954)则被称为计算机科学之父。1943年,香侬和图灵相遇于纽约市的贝尔实验室。尽管他们的研究题目不同,他们讨论彼此的工作,其中包括有关图灵的「通用机器」。图灵相当惊讶,香侬在一片程序码和计算机的海洋中,将艺术和文化视为数字革命不可或缺的部分,将之称为「数字DNA」。香侬在1943年告知图灵梦幻般的想法,如今已经成为现实,因为所有媒体都以数码化呈现,涵盖数百万的「文化事物」和庞大的音乐收藏。香侬在艺术、信息和计算之间建立的早期联系,直观地描绘我们今天正在经历的未来。图灵在1950年发表论文〈计算机与智能〉(Computing machine and Intelligence),首次谈到人工智能(AI),并提出「图灵测试」,为信息研究领域创建智能设计的标竿。图灵测试说,如果一台计算机能够欺骗人类相信它是人类,那麽它就应该被称为智能计算机。香侬则直接订出机器学习的目标: 「创造出击败世界冠军的象棋程序;撰写出能够被知名文学期刊选用的优美诗歌;编写能够证明或反驳黎曼猜想(Riemann hypothesis)的数学程序;设计一款收益超过50%的股票选择软件。」今日,香侬的第一个目标已在2017年由AlphaGo达成。机器学习常见的做法,是将随机事件相关联的预期信息量(expected amount of information)加以量化,并衡量概率分布之间的相似度。今日则被用作衡量概率分布信息内容的指标,则是香侬提出的信息熵(Shannon entropy)。香侬熵背后的基本概念是所谓事件的自信息(self-information),有时也称为惊奇性(surprisal)。自信息的直觉是这样的。当观察到一个不太可能发生的随机事件时,我们将其与大量信息相关联(这代表当不太可能发生的事件发生时,我们获得极大的信息量)。相反,当观察到一个很有可能的结果时,我们将其与较小的信息量相关联。将自信息视为「事件发生会造成我们多大的惊奇」非常有帮助。例如,考虑一个始终会落在正面的硬币。任何硬币投掷的结果都是完全可预测的,我们永远不会对结果感到惊讶,这意味着我们从这样的实验中获得的信息为零。换句话说,其自信息为零。如果硬币的落地面的随机性增加,则每次投掷硬币时都会有一些惊奇,尽管超过50%的时间我们仍然会看到正面。因此,自信息大于零。最大的惊奇量是在硬币是公平不偏的情况下获得的,即落在正面或反面的机会都是50%,因为这是硬币投掷结果最不可预测的情况。基于上述非正式的需求,我们可以找到一个合适的函数来描述自信息。对于一个具有可能值 x1, . . . , xn 和概率质量函数 P(X) 的离散随机变量 X,任何介于0和1之间的正单调递减函数都可以用作衡量信息的指标。还有一个额外且重要的性质,那就是独立事件的可加性;两次相继的硬币投掷的自信息应该是单次硬币投掷的两倍。对于独立变量来说,这是有意义的,因为在这种情况下,惊奇或不可预测性的数量变为两倍。藉由上述特性,香侬熵被应用于测量与一组概率相关的不确定性或信息内容。香侬熵通常用于决策树(decision tree)和其他AI模型,以量化数据集的不纯度或混乱度。例如在决策树算法中,香侬熵用作在每个节点上对数据进行分割的依据。目标是最小化熵,熵较低的节点被认为更「纯粹」或更具信息。为每种可能的分割计算熵,选择导致熵最大程度减小的分割。这个过程在决策树不断增长的情况下进行递归性地重复,得到我们想要的答案。香侬在1948年提出信息熵的概念,影响到80年后的今日机器学习的发展,真奇人也。 
2024/3/5