智能应用 影音
TERADYNE
member
林一平
  • 国立阳明交通大学资工系终身讲座教授暨华邦电子讲座
现为国立阳明交通大学资工系终身讲座教授暨华邦电子讲座,曾任科技部次长,为ACM Fellow、IEEE Fellow、AAAS Fellow及IET Fellow。研究兴趣为物联网、移动计算及系统模拟,发展出一套物联网系统IoTtalk,广泛应用于智能农业、智能教育、智能校园等领域/场域。兴趣多元,喜好艺术、绘画、写作,遨游于科技与人文间自得其乐,着有<闪文集>、<大桥骤雨>。
Jony Ive的设计思维
我曾经以iPhone为载具,发明一种具有位置传感功能的万用无线遥控器。当你在房间中指向任何家电(如冷气机)时,iPhone会自动成为该家电的遥控器。这一类的创意是基于智能手机的发展而来。智能手机已成为一个重要的硬件平台,可以发挥创意,特别是在拍照摄影功能方面,可以开发出许多创意应用,甚至改变人们的行为方式,被《生活》(Life)杂志誉为Cameraphone Revolution(摄影手机革命)。而iPhone的成功,其中的一位功臣是艾夫(Jonathan Ive,习称Jony Ive)。他是当时苹果的首席设计师,在推动移动创意方面有关键性的影响力。艾夫的创新作品包括iPod、iMac、MacBook Air、iPhone和iPad。他对细节的狂热关注超越表面的外观。这些作品的关键特点在于使用的便利性和简洁性。作为一个艺术设计师,艾夫与科技专家Steve Jobs密切合作,共同创造出具有艺术品味的科技产品。艾夫的标志性设计象徵着当时处于低谷的苹果(Apple)的复兴和重返巅峰。在科技领域中,很少有设计具有如此大的影响力。艾夫的透明且丰富多彩、同时极简洁的美学成为苹果成功的关键所在。他为苹果设计光滑且符合人体工学的产品,彻底改变科技设计,并为个人通讯设备建立新的美学标准。艾夫的设计方法受到Dieter Rams的影响。从美学和哲学的角度来看,Rams的设计原则贯穿艾夫的作品。艾夫于1992年加入苹果,那时正是公司遭遇困难、几乎面临破产的时期。他对公司只专注于电脑科技感到担忧,他说:「我曾担心周旋于以电脑科技本位的事业部门,并涉足各种产品的广泛领域会很困难。然而,出乎我的意料,这并未成为问题,因为我们设计的是包含许多不同组件的系统,包括耳机、遥控器、鼠标、扬声器和电脑。我喜欢在这些相对较新的产品类别中工作,专注于基础的创新设计。即使只是参与一个产品的开发,也能立即改变整个产品类型和相关系统的历史。」艾夫和苹果的成功因素在于其设计工作室的运作方式,类似于一家外部设计公司,但只为苹果这个单一客户服务,并位于公司的核心位置。这个工作室的规模非常小而可控。尽管苹果拥有数万名员工,但艾夫的设计工作室只有约20名设计师和同样数量的支持人员。最重要的是,艾夫的团队有权将他们的设计实现为最终产品。艾夫的团队主动参与产品的开发,而非仅仅被动设计。iMac和其他数十种产品并不是由苹果的工程团队主导,而是在艾夫的设计工作室中构思出来的。苹果以前曾以工程为主导,但Jobs和艾夫改变这种思维,让当时的苹果非常重视设计。艾夫告诉《时代》(Times)杂志:「物品和它们的制造是不可分割的。如果你了解一个产品是如何制造的,你就能在思考产品的外观之前,了解它们的用途、工作原理以及应该使用什麽材料制造。这种工艺的概念正在复兴。」艾夫与Jobs对此有着相同的看法,艾夫表示:「我清楚记得Jobs宣布,我们的目标不仅仅是赚钱,而是创造出伟大的产品。这种理念所做的决策与过去苹果的决策截然不同。」Jobs和艾夫建立了一个强大的工作关系,这成为苹果成功的核心,Jobs甚至称艾夫为他在苹果的「精神伴侣」。2012年,艾夫被英国皇室封爵。尽管获得荣耀,艾夫强调:「我不喜欢独自受到关注。设计、工程和制造这些产品需要大型团队的努力。」台湾资通讯的学生往往搞不懂问题前就开始做专题。结果是浪费时间。我们应该牢记艾夫的话,在最初的设计下功夫: 「在设计过程的开始,一个小小的改变就能在最终产品中定义出完全不同的产品(A small change at the beginning of the design process defines an entirely different product at the end.)。」 
2024/4/17
智能城乡应用永续经营三关键
新竹县政府主办一场「智能城乡论坛」,我受邀担任下半场综合讨论的与谈人。题目为「以公私合作推动智能城乡发展」,由行政处长周秋尧及都市发展与环境教育基金会荣誉会长林建元共同担任主持人,分享智能城市发展前景与趋势,及新竹县面临的机会与挑战。会场听众询问,新竹县发展智能城乡的策略为何? 对于智能城乡应用的永续经营,我认为应该考虑3个问题:首先,要清楚区分必要与非必要(Must-have or Nice-to-have)。将智能城市应用区分为「必备」或「可有可无」反映它们对日常生活产生影响的不同程度。在某些情况下,这些应用的存在或缺乏可能不会显着改变城市居民的日常体验。然而,必须承认这些应用的成功或失败取决于它们的功能性以及它们是否能够融入城市结构。以智能家庭应用而言,电动窗帘大家都感新奇。但要花大钱建置,可能就无人问津。因此这是一个「可有可无」的应用,而非「必备」的应用。第二,需分析维运成本(CAPEX vs OPEX)。很多应用勉强建置,无力维护。智能城市应用的失败案例包括未能满足期望或缺乏必要基础设施的情况。此类缺陷可能包括使用者界面不足、数据处理效率低下或连接性不足。这些挫折强调在部署智能城市解决方案之前,进行健全规划和充分测试的重要性。台湾的失败案例不胜枚举,一个成功案例是YouBike,很务实地在许多台湾的城镇提供服务。在国内大陆,很多类似YouBike的服务太过花俏,OPEX太高而失败。第三,要能够选择有用数据(To data or not to data)。不知如何使用数据,就不会有智能城乡。我提出智能农业的成功案例,是我们帮兰花工厂进行非影像兰花黑头侦测的应用。城市最应该运用的数据是交通数据。而智能路灯是最好的载具,应在现有的路灯挂上智能平台,而非取代现有路灯系统。在台湾,许多智能城市应用的存在与否并未对居民的日常生活产生显着影响,他们的生活维持着往常的方式。而很多「必备」的智能城市应用都是因为政府法规要求。在卫福部一个显着而成功的案例是在医疗应用中推广快速医疗互通资源(FHIR)。FHIR已成为医疗保健领域的一股变革力量,促进电子健康记录的安全交流,并在各种医疗系统之间促进互操作性。其成功是对设计良好且有效实施的智能城市应用在关键领域(尤其是医疗保健)中可能产生积极影响的明证。智能城市应用失败的主要原因是将简单的问题复杂化,同时缺乏解决问题的实际移动力。很务实的解决上述3个问题,智能城市有永续经营的机会。我给的答案,应该都适用于所有城市。
2024/4/2
罗夏克测试与大型语言模型
我一直尝试将不同的工具和大型语言模型(LLM)结合,这是将传统软件工具进行数码转型最快的方式。例如曾将鱼骨图管理加上ChatGPT,效果甚佳。接下来我想尝试将LLM和罗夏克墨渍图结合,进行心理投射测试时。然而,我尝试将ChatGPT和罗夏克墨渍图」(Rorschach Inkblot Test)结合,进行心理投射测试时,ChatGPT的表现就有点荒腔走板,言不由衷。罗夏克测试使用10个墨渍图案,每个墨渍图案几乎具有完美的对称性。其中5个墨渍是黑墨,2个是黑墨和红墨,另外3个是彩色的。这些墨渍图并非随机或偶然的设计,罗夏克(Hermann Rorschach, 1884~1922)精心设计每一个墨渍图,使其尽可能具有模棱两可和「矛盾」的特点。罗夏克将墨渍图开发为诊断精神分裂症的工具。后继者则扩大使用于一般的个性测试。无论是在心理学还是文化上,这个测试本身有着惊人的生命力。罗夏克测试不仅仅关于你看到什麽,更重要的是你如何看待它。大多数的墨水渲染看起来像无意义的形状,但罗夏克墨渍图确实可以看出不同的东西,给个人的创造力留下空间,但这些墨水渲染也有一种真实的结构,可以客观地检查你所看到的东西是否符合标准或超出范畴。罗夏克是一位瑞士精神科医生,曾师从荣格(Carl Gustav Jung)。相较于罗夏克,弗洛伊德是一位文字型的人,他的心理学完全关乎言语疗法,因此早期如ChatGPT的LLM较容易插入(plug in)弗洛伊德的测试。罗夏克认为,看见比说话更深刻,我们如何看待事物更能展示出我们是谁。最近,多模式学习模型(Multimodal LLM)就更能适应罗夏克的测试。罗夏克在发明测试后不久就去世了,此测试在他无法控制的情况下朝着各种不同的方向发展。在美国,神秘的内在风格、个人魅力,是什麽让你在人群中脱颖而出等特性,皆以不同罗夏克测试的变形版进行测验。第二次世界大战爆发,罗夏克测试被大量运用于临床心理学领域。它被用于纽伦堡的纳粹审判,也被用于越战期间丛林中的农民。专家对于不同被测者的反应会有奇妙的解读。例如,您如果在10张卡片中有4个以上的性(Sexual)回应,可能暗示存在精神分裂症;如果被测试者的性回应过少,可能暗示性挫折。罗夏克在墨点卡片湿润的状态下将它们沿中心轴对摺,使它们都具有对称性,被测者很容易将它们旋转90度,解读它们像是水中的倒影。若被测者是罪犯,则镜像回应被用来区分精神病患者和非精神病患者。对图形细节的关注可以解释为冲动或警觉性,亦即能够看到他人忽视的事物。然而,如果过于关注细节,则可能表示对平凡事物的着迷,僵化的强迫性思维,有时还可能涉及偏执狂。之后有大量论文发表对各种对象的测试,有些光怪陆离,有些还颇为搞笑。罗夏克测试引发许多争议,一些严谨的学者开始展开研究。一项于2013年进行的重要研究,回顾所有与该测试所声称测量的方面相关的研究,剔除不够严谨的部分后,证实当前的罗夏克测试的可行性。这些墨水测试具有客观的视觉特性,测试本身有着具体的历史和用途,只要按照特定的方式运作,其结果就有意义。罗夏克测试显然不是容易驾驭的工具,若能巧妙地以微调模型或检索增强生成(RAG)融入LLM,其威力必然大增。
2024/3/20
香侬的智能
香侬(Claude Shannon, 1916~2001)被誉为信息理论之父。图灵(Alan Turing, 1912~1954)则被称为计算机科学之父。1943年,香侬和图灵相遇于纽约市的贝尔实验室。尽管他们的研究题目不同,他们讨论彼此的工作,其中包括有关图灵的「通用机器」。图灵相当惊讶,香侬在一片程序码和计算机的海洋中,将艺术和文化视为数字革命不可或缺的部分,将之称为「数字DNA」。香侬在1943年告知图灵梦幻般的想法,如今已经成为现实,因为所有媒体都以数码化呈现,涵盖数百万的「文化事物」和庞大的音乐收藏。香侬在艺术、信息和计算之间建立的早期联系,直观地描绘我们今天正在经历的未来。图灵在1950年发表论文〈计算机与智能〉(Computing machine and Intelligence),首次谈到人工智能(AI),并提出「图灵测试」,为信息研究领域创建智能设计的标竿。图灵测试说,如果一台计算机能够欺骗人类相信它是人类,那麽它就应该被称为智能计算机。香侬则直接订出机器学习的目标: 「创造出击败世界冠军的象棋程序;撰写出能够被知名文学期刊选用的优美诗歌;编写能够证明或反驳黎曼猜想(Riemann hypothesis)的数学程序;设计一款收益超过50%的股票选择软件。」今日,香侬的第一个目标已在2017年由AlphaGo达成。机器学习常见的做法,是将随机事件相关联的预期信息量(expected amount of information)加以量化,并衡量概率分布之间的相似度。今日则被用作衡量概率分布信息内容的指标,则是香侬提出的信息熵(Shannon entropy)。香侬熵背后的基本概念是所谓事件的自信息(self-information),有时也称为惊奇性(surprisal)。自信息的直觉是这样的。当观察到一个不太可能发生的随机事件时,我们将其与大量信息相关联(这代表当不太可能发生的事件发生时,我们获得极大的信息量)。相反,当观察到一个很有可能的结果时,我们将其与较小的信息量相关联。将自信息视为「事件发生会造成我们多大的惊奇」非常有帮助。例如,考虑一个始终会落在正面的硬币。任何硬币投掷的结果都是完全可预测的,我们永远不会对结果感到惊讶,这意味着我们从这样的实验中获得的信息为零。换句话说,其自信息为零。如果硬币的落地面的随机性增加,则每次投掷硬币时都会有一些惊奇,尽管超过50%的时间我们仍然会看到正面。因此,自信息大于零。最大的惊奇量是在硬币是公平不偏的情况下获得的,即落在正面或反面的机会都是50%,因为这是硬币投掷结果最不可预测的情况。基于上述非正式的需求,我们可以找到一个合适的函数来描述自信息。对于一个具有可能值 x1, . . . , xn 和概率质量函数 P(X) 的离散随机变量 X,任何介于0和1之间的正单调递减函数都可以用作衡量信息的指标。还有一个额外且重要的性质,那就是独立事件的可加性;两次相继的硬币投掷的自信息应该是单次硬币投掷的两倍。对于独立变量来说,这是有意义的,因为在这种情况下,惊奇或不可预测性的数量变为两倍。藉由上述特性,香侬熵被应用于测量与一组概率相关的不确定性或信息内容。香侬熵通常用于决策树(decision tree)和其他AI模型,以量化数据集的不纯度或混乱度。例如在决策树算法中,香侬熵用作在每个节点上对数据进行分割的依据。目标是最小化熵,熵较低的节点被认为更「纯粹」或更具信息。为每种可能的分割计算熵,选择导致熵最大程度减小的分割。这个过程在决策树不断增长的情况下进行递归性地重复,得到我们想要的答案。香侬在1948年提出信息熵的概念,影响到80年后的今日机器学习的发展,真奇人也。 
2024/3/5
第一位程序工程师—爱达・勒弗雷斯
爱达・勒弗雷斯(Ada Lovelace)是19世纪英国一位成就卓着的数学家,浪漫诗人拜伦(George Gordon Byron)的女儿。她是史上第一位程序设计师。用现代的说法,她是开先河的「程序媛」、技压理工男的女学霸。爱达出生不久父母离异,与母亲相依为命。她的母亲Annabella Milbanke热爱数学,坚持让女儿从小开始学习逻辑、科学和数学。在19世纪男性沙文社会,这些学科几乎是女性的禁区,对这些学问感兴趣并愿意钻研的女性是极为罕见的机会。爱达从小对机器着迷,19岁时嫁给了一位名叫金(William King)的贵族青年。他曾经教过她数学。 丈夫被册封勒弗雷斯伯爵后,爱达・金夫人成为勒弗雷斯伯爵夫人。1833年,她遇到机械工程师巴贝奇(Charles Babbage),十分投缘,成为好友。巴贝奇提出了差分机与分析机的设计概念,其设计具有现代电脑的所有基本要素,分析机被认为是早期电脑的雏型,巴贝奇因此被视为电脑先驱。爱达对这个分析机极感兴趣,悉心研究,1842年为这部机器编写第一个程序,1843年在英国科学期刊上发表。后人视之为最早的电脑程序。爱达在论文中介绍如何为巴贝奇分析机创建代码,用来处理字母、符号和数字。她还为这部机器创建一种重覆一系列指令的方法,这个过程被称为「循环」(for loop),至今电脑程序还在使用。她建立循环和子程序概念,为计算程序拟定算法,写出人类历史上第一份「程序设计流程图」。分析机从模型变成现实,经过100多年的时间。1940年代,英国科技奇人图灵(Alan Turing)受爱达的论述和设想的启发,开始建立现代电脑的理论。爱达于因治疗子宫颈癌失血过多而去世,享年36岁,被安葬在诺丁汉父亲拜伦的墓旁。她对电脑科学的贡献当时无人关注,直到她去世后才被人发现。如今,爱达是成为科技界杰出女性的象徵。美国国防部纪念这位伯爵夫人在电脑领域开先河的贡献,于 1980年将历时20年研制成功的高级程序语言命名为Ada语言。那是公认第四代电脑语言的主要代表。为了鼓励更多女生把科技事业作为人生追求,英国女权活动人士2009年发起倡议,每年规定一天作为主题日,举行各种活动庆祝自然科学和工程技术领域中愈来愈多优秀的「理工女」跟「理工男」齐头并进。这一天被命名为「爱达・勒弗雷斯日」,简称ALD,定在每年10月第二个星期二。爱达欣赏数学之美的能力是许多人,包括一些自认为是知识分子的人,所不具备的天赋。她意识到数学是一种美丽的语言,一种描述宇宙和具有诗意的语言。爱达拥有一种诗意的感性,使她能够将方程序看作描绘自然物理壮丽的笔触,就像她能够想像「红酒色的海」或「走在美丽中,像夜晚一样的女人」一样。但数学的吸引力更深;它是一种精神的表徵。数学「构成我们能够充分表达自然界巨大事实的唯一语言」,她说,它允许我们描绘在创造中展开的「相互关系的变化」。这个工具的运用让「弱小的人类思维,能最有效地读懂造物主的作品」。 
2024/2/5
知识的传播
知识传播的机制随着时间,持续演进。在实体书数码化后的今日,提到大量快速散布知识的机制,大家都公认是网际网络(Internet)。网际网络大量信息的交替下,产生ChatGPT这种极端智能的生成式人工智能(generative AI),更对人类的知识演进有巨大影响。如果问起大量复制知识的始祖是谁,西方人都会说是古腾堡(Johannes Gutenberg, 1398~1468)。古腾堡最早印行的圣经甚至成为很多图书馆的镇馆之宝。我每次访问耶鲁大学,一定会到拜内克古籍善本图书馆(Beinecke Rare Book and Manuscript Library)朝拜其收藏的纸本古腾堡圣经,百看不厌。全书以拉丁文印行,每页2栏,各42行,因此被称为「四十二行圣经」(42-line Bible)。每当我来到美国加州洛杉矶,也会到杭庭顿图书馆(The Huntington Library)朝拜其收藏的另一本古腾堡圣经,这是羊皮版,字迹清晰,油墨没有褪色或晕开。每次观赏,都是不同的惊喜。杭庭顿图书馆也收藏英国第一本印刷书籍《特洛伊历史故事集》(Recuyell of the Historyes of Troye),这作品原本是法国作家Raoul Lefèvre 创作于1464年的浪漫史诗,内容讲述希腊神话中行侠仗义的英雄故事,具备中世纪骑士文学的色彩。英国之前都是靠手抄本流传,直到William Caxton从欧洲大陆引进第一代印刷机。杭庭顿图书馆的主人Henry Huntington(1850~1927)有许多国内文物的收藏,但我找不到杭庭顿图书馆收藏最早的国内印刷书籍。现存世界上最古老的金属活字本,是1377年高丽佛经《白云和尙抄录佛祖直指心体要节》一书。高丽的印刷术是学国内的。国内活字印刷术的发明早于古腾堡,但最早的国内印刷书籍却已失传。法国着名作家Rene Etiemble(1909~2002)称「所谓古腾堡可能是印刷术的发明人」是欧洲本位主义的欺骗行为。根据沈括(1031~1059)的《梦溪笔谈》,最早的活字印刷起源于1040年(宋朝),毕昇发明胶泥活字印刷术,替代雕版印刷术,包括制字、贮字、排版、拆板和刷印等一整套活字印刷术工序,与后世铅字排版的原理完全相同。其后历代出现各种活字铸造技术,所使用的材料包括木头、陶土、陶瓷、铜等。然而活字印刷在国内并未流行,仍然以雕版印刷为主。毕昇只是一位工匠,历史文献上甚至未曾保存他的完整生平事蹟及肖像。若非当官的沈括帮他记上一笔,后世可能根本不知道毕昇是何许人也。尽管国内比欧洲早400年发明活字印刷术,成就却被漠视。近代的活字印刷术发明仍然归功于古腾堡。在网际网络推动出巨大数据的AI时代,我期待「现代毕昇」的出现,为华人争光。(国立阳明交通大学资工系终身讲座教授暨华邦电子讲座) 
2024/1/17
教育型机器人的作中学
科幻小说作家Isaac Asimov创造「机器人学」(Robotics)这个词汇。他创作9篇短篇小说,收录于《我,机器人》(I, Robot),描绘「正电子」(positronic)的发展,并探讨这项技术的道德含义。正电子类似人类,是拥有人工智能(AI)形式的机器人。机器人要模拟人类行为,很自然地会与AI结合,接下来又会衍伸出许多人文的议题。我演讲时会问听众: 「人类和机器人结婚有意义吗?」Asimov「机器人学」的框架极为宏大,包括机械工程学、资通讯电机学、心理学、社会学,甚至人类学。因此机器人相关的教育专题会成为STEM教育的很好实践方式。STEM是一项跨领域、科目整合的教学方式,核心着重于科学(Science)、 科技(Technology)、工程(Engineering)及数学(Math),后续也延伸包含艺术(Art)。2023年12月,台湾教育界人士对108课纲的做法有许多争议。我认为,解决方案是融合式的减法教育,其实就是STEM的精神。我更强调「作中学」的重要性,其中的实践方式是让学生进行融合不同学科的实作专题。很多人要我举出实例,当中一例是我发展的EduTalk平台。另一个例子则是在新竹县亚太美国学校举行亚太区的教育型机器人竞赛(VEX robotics signature events)。该赛事由机器人教育与竞赛基金会(The Robotics Education & Competition Foundation) 主办。这是全球最大的初中和高中机器人计划,每年会以一场游戏的形式呈现一个激动人心的工程挑战。在老师和导师的指导下,学生们全年参与构建创新机器人并进行竞争。VEX机器人竞赛可以在多个方面实践STEM教育。首先, VEX这一类的机器人竞赛透过提供亲身参与的机会,激发年轻学生参与设计、建造和程序设计机器人的经验。这种参与方式能从小引起对STEM领域的兴趣,鼓励他们进一步深入研究。参与竞赛的学员将应用科学和工程原理,获得实际的经验。这种实践式的学习方法,有助于弥合理论知识和实际应用之间的差距。这些竞赛也同时强调团队合作,分享看法,并善用多样的技能解决复杂问题。这些合作经验增进跨学科团队共同参与创新项目。参与机器人竞赛的学生可轮流在团队中担任领导角色,有助于培养领导能力、专案管理技巧和责任感。参与机器人竞争需要参与者以有创造性的方式应对挑战并解决问题,从中培养批判性思维、适应性和韧性。参与学生会与来自产业的专业人士、导师和评审互动。这种接触使他们了解当前产业实践、标准和技术进步,为学生应对专业STEM领域的期望做好准备。在这次比赛战况激烈。冠亚军一直平手。在闭幕典礼时,朱家明校长邀请我颁奖。颁奖时,我讲5分钟鼓励学生的话。我放了3部影片,是我的研究团队及夥伴进行整合AI及机器手臂的成果,希望借此扩大学生们的视野。最后我给学生一句话: 「享受进行专案的乐趣,快乐的玩耍吧。」学生不只要「作中学」,更要「学中乐」。(现为国立阳明交通大学资工系终身讲座教授暨华邦电子讲座)     
2023/12/28
深度伪造技术
Nikola Tesla(1856~1943)在1890年代预言「21世纪时,机器人将取代古代文明中奴隶劳动所占据的位置。」这项预言在当今的人工智能(AI)技术的发展下似乎正在实现。早期的AI技术已经能够大致准确地分辨狗和猫的图片,随着生成式人工智能(generative AI)的突破性发展,它逐渐深入我们的生活并引领着社会变革。当AI技术进入深度伪造(DeepFake)的层次,将会加速我们进入元宇宙世界,实现Tesla的预言。深度伪造是一种透过电脑生成的影片技术,用于创造看似真实的虚假影像。它使用AI技术将一个人的脸替换为另一个人的脸,同时匹配微小的面部表情,从说话到皱眉都能保持一致。这项技术利用深度学习算法和大量训练数据生成逼真的影片,使观众难以区分真实和伪造的影像。制作一个脸部交换的视频通常需要以下步骤:首先,使用编码器处理2个人数百万张的照片。编码器是一个AI系统,用于寻找并学习2个脸部之间的相似之处,并将这些相似之处简化为共同的特徵,并压缩图像。然后,使用一个名为解码器的第二个AI系统,从压缩的照片中恢复出脸部。你训练一个解码器来恢复第一个人的脸部,另一个解码器来恢复第二个人的脸部,因为这两张脸是不同的。当需要进行脸部交换时,只需将编码的照片输入「另一个」解码器。例如,将某甲的脸部压缩图像输入已经训练过某乙的解码器。然后,解码器使用某甲的表情和面部定位来重建某乙的脸部。为了制作逼真的影片,这个步骤必须处理每一帧画面。现今,训练某甲与某乙脸部的模型,以及在影片中合并脸部的过程,几乎可以实时完成。早期有名的深度伪造例子包括2个假影片:美国前总统Barack Obama称呼川普(Donald Trump)为「完全蠢货」和Mark Zuckerberg吹嘘对数十亿人的被盗数据拥有绝对控制。我们在乌克兰的战争中也见证假影片的应用,以及使用知名人物脸孔的成人内容。然而,深度伪造技术也可能被用于音频和图像,大部分国家禁止未经同意且具有邪恶目的的深度伪造使用。不过,除了潜在危险性,深度伪造技术在一些有趣且轻松的应用中也显示出潜力。例如,将深度伪造应用于教育领域,可以使课堂更有趣。想像一下,在英文课堂上,可以邀请虚构的名人来讲解课程,例如刘德华。虽然使用真实人物的深度伪造可能会被视为非法,但是使用不存在的人物则可以避免法律问题。企业也开发并销售深度伪造服务,以实现自动化新闻播报,甚至减少演员的参与,节省成本。例如,TikTok 上就有一个深度伪造的阿诺史瓦辛格(Arnold Schwarzenegger),使用俄语讲话,省去了他学习俄文的功夫。深度伪造技术的应用范围广泛且多样,但我们必须谨慎使用,以避免滥用和潜在的负面影响。只有在合法、道德且有创意的方式下,才能充分发挥深度伪造技术的潜力。(作者为国立阳明交通大学资工系终身讲座教授暨华邦电子讲座) 
2023/12/15
智能农业与品茶之道
英国友人找我谈智能农业,询问能否检验茶的品质,此难度虽高,但有机会以我们发展的物联网技术AgriTalk完成其愿望。AgriTalk已有能力完成水质品评,因为我们曾经建置智能渔塭养殖,已经有分析水的基本知识与经验,知道如何利用水底传感器来量测水的硬度与酸硷值计算方式,可以进行茶水的分类品评。茶叶的分类也办得到,在茶叶发酵与烘焙过程,AgriTalk能以传感器(温湿度等)监测,再利用基因定序,可以品评6种不同发酵程度和不同烘焙程度的茶。真正的挑战是茶的风味,仍然依靠专家的感官来品评,包括气味、味道以及口感。现今电子鼻的传感准确度远逊于常人,遑论专家。味觉传感器发展仍在初阶,而口感更难定义。我们仍有很大努力空间。英国友人说他们爱喝茶已到了上瘾程度。在冷战时期,英国怕被苏联丢原子弹,盖了避难室。接下来绞尽脑汁地想,如何将大量的茶叶挤进避难室,供应英国佬喝下午茶。在英国的国家档案馆内有一份1955年英国食品部的极机密文件,当中写着,核战后茶的供应将非常吃紧,每个人平均每周吃不到一盎司,严重影响英国人「身心健康」。为了反讽英国人的爱喝茶,弗莱明(Ian Lancaster Fleming,1908~1964)将笔下的007庞德形容成不爱喝茶的人。传闻英国女王喜欢国内的绿茶。我曾为文提到英国女王与北埔「东方美人」茶的故事。发表之后,峨眉乡林文秀先生特地告知我,最顶级的东方美人茶主要生产地是在北埔旁边的峨眉乡。北埔是茶叶集散地,峨眉的茶都送到北埔来贩售,两地陪衬,相得益彰。林先生有雄心壮志,希望在峨眉乡塑造一个「东方美人街」,形成峨眉文化商圈,带动地方建设。他带我到峨眉乡的几个茶厂见识。其中徐耀良茶园及杨隆茶园的产品曾多次在全台湾的竞赛中赢得冠军。我品尝2个茶园的东方美人茶之后,果然花香、果香、茶香满溢,东方美人茶的茶树在小绿叶蝉的叮咬下,防御机制产生自然反应,散发出花果蜜香,成就了特殊风味,远胜于过去我喝过的茶。我询问其种植方式,他们都毫不藏私地与我分享。我综合其说法,种茶之道无他,细心及耐心是重点。当中有些需要耐心的工作可以利用物联网、大数据及人工智能(AI)技术进行,我相信科技化后的东方美人茶必大有可观。
2023/12/4
AI时代企业的关键机会和思维
随着人工智能(AI)技术发展,人工智能已深入人类生活。为了让产业、政府和学术界能够理解AI、GPT等科技的重要性及未来趋势,中华政大企业管理协会特别举办年度企业论坛,邀请国内专家探讨AI时代的产业策略,期许台湾把握人工智能的机会,引领世界经济向前。我被邀请给一个主题演讲(Keynote Speech),在论坛分享「AI时代企业的关键机会和思维」, 以智能城市的发展前景引导出台湾在AI时代的优势和发展策略,并探讨企业在这个时代所需具备的关键能力和思维,以及AI对人类所带来的挑战和影响。为了因应AI所带来的挑战,我呼吁大家学习电脑语言(如Python),因为在未来,电脑语言将成为不可或缺的技能,并能够增强个人的竞争力。今日电脑语言已愈来愈人性化,形同学习英文或日文,大家不应害怕排斥。同时,我也提到在AI时代,数据的重要性变得非常突出,但我们必须注意数据的正确性和可靠性,因为数据的错误可能导致AI错误预测的结果。因此,我们应该重视有效管理和处理大量乾净的数据,同时也要关注隐私和法规问题,确保数据的合法使用,避免引发法律争议。我以白草莓病害侦测为例,经由生成对抗网络(GANs)生成图片训练演算法,我能将病变侦测的准确率由87.50%提升到 96.88%。另一个例子,梅约诊所(Mayo Clinic)和NVIDIA、MGH&BWH临床数据科学中心合作,使用GANs创建「假」脑部核磁共振扫描。他们发现,通过训练算法于这些「假」医学图像和10%真实图像,可以成功识别肿瘤,避免昂贵且艰钜的真实图像收集。关于企业在AI时代应该如何把握关键机会,我以公司部门改造为例,提出了以下步骤。首先,工作人员应该将年度目标与关键成果OKR(Objectives and Key Results)置于一旁,优先找出日常工作中的瓶颈。接着,寻找适合的AI工具,或者藉由询问ChatGPT等技术来撰写能够串连API的程序,进行自动化。完成后,进行测试,一旦成功,便可将自动化流程固定下来。我最后强调,AI在现代社会中已变得不可或缺,我们不应忽视数据集中和计算力的重要性,也应更深入地思考和探讨如何应对AI的发展和应用,因应未来AI所带来的变革和挑战。同时,我们也应更积极地应用AI来解决社会问题,改善人们的生活,期待AI能在未来带来更多的惊喜,为社会创造更多的福祉和进步。
2023/11/20