智能应用 影音
英特尔怎麽了?
英特尔(Intel)近期负面消息不断:市值已经跌到半导体类股的第十名,是台积电的5分之1;晶圆代工业务持续扩大亏损;先进制程发展不顺;高通(Qualcomm)抢先与微软(Microsoft)合作推出AI PC的芯片。这一切在十年前,甚至五年前都是无法想像的事,英特尔到底怎麽了?英特尔CEOPat Gelsinger,上周在台北的COMPUTEX发表主题演讲。演讲是以击鼓演出开场的,颇有对这些负面信息,采取鸣鼓而攻之的味道。Gelsinger以摩尔(Gordon Moore ),在早年提出摩尔定律时所说的一句话开始,「Whatever has been done, can be outdone」,也就是说「过去不论完成了什麽,都是可以被超越的」,他相信自己是在做件超越前人的事,包括要在4年中完成5个先进制程节点。凭心而论,就个人的观察,英特尔还是一家非常有创新能力的公司。过去不少英特尔的创新是在创造一个产业生态,引领整个半导体界往前迈进。比如说,在90年代英特尔率先提出12寸晶圆平台,2000年代又接着倡议18寸的晶圆;为了PC的无线网络,提出WiMax架构;而Lightpeak是为了解决PC的有线高速信号传输;在封装上,与日本的味之素共同开发ABF材料;最近被讨论甚多的玻璃载板,以取代现有的高速载板,也是英特尔在多年前所提出的;为了解决芯片功耗过大的问题,英特尔率先提出芯片背面供电(backside power)的想法,为目前最有潜力的解决方案;甚至EUV的微影技术,也是英特尔首先赞助的科研计划。即便台积电轰动武林的CoWoS,英特尔也有EMIB(embedded multi-die interconnect bridge)的技术来抗衡。上述这些林林总总,如果没有英特尔的创新与推动,整个半导体产业也许还停留在石器时代,绝非现在的样貌。这麽一家创新又技术领先的公司,是发生了什麽事,造成今天的局面?首先,英特尔在最近的20年间(2005~2024)已换了4任的CEO,任期远短于先前摩尔在位的12年,以及Andrew Grove的11年。除了Gelsinger为技术出身外,其他3位都出身于营运或者财务。其次在整个半导体产业的生态改变,尤其是先进制程,7纳米制程节点是一个关键。在2010年初期,全球在开发7纳米技术,都遇到相当的瓶颈。首先若延袭既有浸润式DUV技术,在关键的微影制程,需要经过3次到4次的曝光程序,既费时又费工。当时的EUV,虽然只需1次的曝光,但是由于光的强度不足,每小时晶圆的产出远低于100片,量产上遭遇困难。整个产业弥漫着悲观氛围,认为技术已经遇到天花板了。换言之,在资源上的投入就不再这麽积极。最后也是最为关键的是,英特尔是家IDM的公司,有自己的产品。在这段期间英特尔先后并超过10家公司,比较大的购并案包括Altera (FPGA芯片),Mobileye (ADAS,车用自驾芯片),Habana(AI芯片)等。由于先进制程遭遇到瓶颈,自然地会考虑到CPU之外的产品线,再加上CEO多出身于营运,自然是忽略在技术深耕上的投入。反观台积电,由于没有自己的产品,唯一的选择,只能在技术上加大力道寻求突破,以及与客户的充分合作。终于EUV的瓶颈打开,加上苹果(Apple)、NVIDIA等重大客户,不断地对于先进制程的需求,最终导致今天英特尔的困境。在COMPUTEX 2024的主题演讲上,Gelsinger卖力地介绍自家Xeon 6 服务器处理器、Gaudi 3 AI加速器,以及AI PC Lunar Lake处理器。其中Gaudi 3以及Lunar Lake是委托台积电生产,分别使用5纳米以及3纳米的制程。这也显示Gelsinger想要超越过去英特尔的积极作为。个人的观察,英特尔还是个相当有底气的公司,Gelsinger的企图心以及有步调、弹性的作为,若能假以时日,势必会威胁到超微(AMD)甚至NVIDIA。美国政府也一定会全力来支持英特尔,因为英特尔是唯一拥有半导体先进制程能力的美国公司,而半导体又是全球兵家必争之地。最后,英特尔是否有机会威胁到台积电的龙头地位?值得我们深思。
不只见证科技业历史 我们更是造浪者
不只见证科技业历史,我们更是造浪者。6月5日美股收盘NVIDIA市值正式超越苹果(Apple),成为全球第二大市值公司,全球媒体要请黄仁勳评论此事时,都不得不提到他正在台湾参与COMPUTEX。除了NVIDIA自己的活动外,他站台、观展、四处吃饭逛夜市,用国台语跟产业与民众搏感情。除了情感上因有这麽一位出生于台湾、又高度参与台湾社会的科技领袖而与有荣焉外,更可贵的是,我们不只见证这历史转折的关键一刻,更深度参与其中!若回顾全球前十大市值业者的转变,从2009年年末市值来看,微软(Microsoft)与苹果这两家科技业者位居第二名与第六名,前者主宰着PC OS与生产力软件市场,后者于2007年推出iPhone正处于开创智能手机时代的上升期,此外拥有全球最大移动电话用户群的国内移动列名第七,但整体来说多数入榜者仍是属于石油、零售、金融、医疗保健、及食品等旧经济各领域的龙头业者。若观察2018年3月底、美中贸易战开打前的市值排名,仅有Berkshire Hathaway、JPMorgan Chase、与Johnson & Johnson这三家非科技公司入榜,其余七家均是美中BigTech业者,分居市值第1~5名及7~8名,依序是苹果、Alphabet、微软、亚马逊(Amazom)、腾讯、阿里巴巴、Facebook。这反应新经济的大幅扩张、2C端垄断性网络平台的市场地位(手机OS、查找、社群等)及2B端云端服务发展的方兴未艾。若就2022年底的市值来看,此时ChatGPT虽已于11月底推出,但生成式人工智能(generative AI)的颠覆性风潮仍未在资本市场充分反应,排名中腾讯与阿里巴巴跌出前十,反应外部美中霸权角力下美国对国内的抑制,及内部国内国进民退政策方针下,扩大监管网络巨擘的双重压力,而Tesla跻身第七名则意味着碳中和/ESG趋势下电动车的商机潜力及对创始人Elon Mask「火星人」般愿景下事业布局的期待。随着科技典范转移来到了当前的生成式AI浪潮,最新的市值排名中,科技业者分居1~5、7、9名,其中OpenAI最大股东及将GPT全方位导入己身各项服务的微软位居第一,而NVIDIA市值在相继超越Meta、亚马逊、Alphabet后,于6月5日收盘首次超越苹果,成为第二高市值公司。苹果曾多年维持全球市值龙头,2024年陆续为微软及NVIDIA所超越,这不仅反应谁是引领生成式AI浪潮的主导者,也正式宣告智能手机 / 移动联网时代的落幕。从2009年的微软与苹果,到最新市值前十大中的所有科技业者,多年来始终都需要以台积电为代表的台湾供应链。从AI加速器芯片到AI服务器,再到数据中心解决方案,再到AI PC,没有我们,加速运算没法加速、生成式AI应用没法落地。很高兴NVIDIA创造历史时正好恰逢COMPUTEX期间、正好黄仁勳人在台湾参与其中,我们是每个时代科技领袖身后的造浪者,过去我们往往不被看见,但如今,整个世界看到我们的贡献! 
AI解析音乐与尼采如是说
我以AI物联网分析音乐,并利用其结果来驱动乐器的演奏,称之为MusicTalk。接下来就想训练大型语言模型(LLM),将文字与音乐互换,再将音乐用来诠释影像。最大的应用是电影配乐。要将音乐智能化以配合影像,科技人必须对音乐的内涵有深入的认识。例如电影的配乐最让人印象深刻的是1968年电影《2001太空漫游》(2001: A Space Odyssey)中用史特劳斯(Richard Strauss, 1864~1949)演绎《查拉图斯特拉如是说》(Thus Spake Zarathustra)这首乐曲的开场。《查拉图斯特拉如是说》是尼采(Friedrich Wilhelm Nietzsch, 1844~1900)的作品。它不同于一般哲学作品,而是以散文诗完成。尼采曾表示这本书实际上是一部「交响曲」,以一种伪圣经风格撰写,它包含许多含糊不清且充满诗意的神秘箴言。我没读通这本书,肤浅了解其主要思想是,人类应该拥抱生活、自然、身体和物质存在,包括其中的乐趣和痛苦,而非寻求超越或来世的精神世界。生活即使伴随着所有的苦难,还是值得为了它的存在而生活。许多艺术家和作曲家受到《查拉图斯特拉如是说》的影响,但很少有人像史特劳斯那样深切融入尼采的哲学观点。1896年时32岁的史特劳斯开始创作 《查拉图斯特拉如是说》乐章。当时尼采因三期梅毒的感染,已精神失常。史特劳斯将自己作品的各个部分以尼采书中不同章节命名。他尝试将尼采抽象的文字清晰地翻译成同样抽象的器乐音乐。该作品在完成后几个月内进行首演,其华丽的编曲、复杂的音乐纹理、大胆的和谐和具争议性的主题,引发激烈的批评和喝采。《2001太空漫游》使用这首乐曲开场为外太空的日出配乐,符合史特劳斯描绘尼采书中开场的山顶日出情境。开场中的小号旋律呈现「自然」或「世界之谜」动机;它在整个乐曲中反覆出现,象徵着大自然的冷漠和神秘性: 在强烈的开场之后,号角的回应是一个宗教式的旋律,由分散的弦乐器精彩演奏。开场时音乐从柔和到逐渐增强,象徵着人类对一个完美、天堂般、精神上的自然替代的渴望。有了《2001太空漫游》的例子,我尝试以MusicTalk反推史特劳斯的音乐,想找出他想表现的意涵,却遭遇极大困难。史特劳斯曾经开玩笑地说,他可以在音乐中诉说一切,即使人们无法理解,我就是那位无法理解的人,妄想以物联网驾驭史特劳斯的音乐。《查拉图斯特拉如是说》太过深奥,AI处理不来。我决定放弃好高骛远的做法,由小朋友听得懂的《彼得与狼》训练MusicTalk,总算有初步成果。这是一个基于物联网的创新音乐乐器检测系统。MusicTalk 引入了一种名为亮度特徵基础Patchout的新颖机制,以提高乐器检测的准确性,并超越现有解决方案。MusicTalk首次系统性地将单个乐器检测器作为物联网设备进行整合,为与其他物联网设备的交互管理提供有效的方法。我们在MusicTalk中引入一个通用音频整形器,融合各种音乐公开数据集,如Audioset、OpenMIc-2018、MedleyDB、URMP和INSTDB。我们利用Grand-CAM分析Mel-Spectrograms来优化 MusicTalk中ViT Patchout和CNN的组合,以实现前所未有的准确率。例如,小提琴检测的精确率和召回率分别达到96.17%和95.77%,这是所有方法中最高的。此外,MusicTalk 的另一个优势在于其基于物联网的视觉化能力。通过将乐器检测器作为物联网设备整合,MusicTalk能够使用动画Avatar来无缝地视觉化歌曲。透过《彼得与狼》为例的案例研究,我们证明,改进的乐器检测准确性增强音乐的视觉叙事效果。与先前的方法相比,MusicTalk在这首歌曲上的F1分数提高12%。然而,我念念不忘的是,我们训练AI模型,何时能如同史特劳斯,了解尼采的想法。MusicTalk仍有很大的改进空间。 
生成式AI非泡沫 2030年1.5万亿美元商机可期
生成式AI(Generative AI)是AI领域中的部分子集合,未来5~10年全球经济成长最关键的驱动力量之一就是生成式AI。DIGITIMES研究中心于2024年5月完成「生成式AI引领应用与硬件新商机—超前布局未来1.5万亿美元市场」专题报告,内容即涵盖三大部分,分别为「生成式AI技术崛起」、「生成式AI运算力发展,从云到端」、「生成式AI应用领域案例」等,针对生成式AI最新关键趋势完成一系列研究。根据DIGITIMES研究中心预估,2022~2030年全球生成式AI市场复合年均成长率可望超过80%,在2030年达到1.5万亿美元规模,就服务、软件及硬件三大组成来看,2024年硬件(主要以生成式AI服务器为代表)占生成式AI市场最大比重。随着各垂直领域百花齐放、应用面更为普及风潮下,预估至2030年时,服务将跃居整体生成式AI市场超过一半的比重。许多专家将生成式AI的浪潮及其影响比拟为新时代的网际网络(internet),确实网际网络以其广泛的应用以及扮演重要基础建设的角色,对许许多多产业带来深远的影响,Google、微软(Microsoft)、亚马逊(Amazon)、Meta、苹果(Apple)、阿里巴巴、百度等众多新兴企业掌握住此一潮流已成为举足轻重的产业巨人;同理,生成式AI也不会只是短期噱头(hype),而是会实实在在地影响我们及所处企业、产业及社会未来发展的重要力量。生成式AI今后发展的三大关键—模型、运算力、数据。模型方面,从2023年着重云端大参数量大型语言模型(LLM),2024年增加对边缘小参数量LLM的关注,以因应为符合边缘装置较低运算力及存储器带宽的先天限制,云端大参数量LLM则扩及多模态LLM,领先业者跟跟进业者差距有所拉开。运算力方面,云端服务器AI运算芯片成长可期,值得关注生成式AI应用从云扩及到端,2024及2025年AI NB及AI智能手机出货量及渗透率可望快速攀升,指标芯片业者纷推出可运行边缘生成式AI推论的芯片,为提升芯片AI运算力,目前以整合神经网络处理单元(Neural Network Processing Unit;NPU)加速器为主流。此外,边缘运算包括物联网等应用区隔,AI的影响力也将日益显着。训练数据部分,目前指标LLM业者使用英文为主要训练数据,而繁体中文训练语料的数量,远比不上简体中文,目前繁体中文训练数据成为模型训练的一大课题。在生成式AI的应用案例方面,本篇专题报告探讨从智能交通、智能零售、智能医疗、智能制造以及智能家庭五大类别,以生成式AI普及的速度来看,不管是零售、制造或是家庭生活、移动应用,都有庞大的商机,各种应用情境在2024年开年以来的国际展会包括CES、MWC以及嵌入式电子与产业电脑应用展(Embedded World)、车电展等,都可以感受到此一趋势。(作者为DIGITIMES研究中心研究总监) 
高带宽存储器风云(三)产业生态样貌可能的变迁
在讨论HBM4标准界面对DRAM产业生态的冲击之前,让我们先回顾一下DRAM产业的现况。DRAM产业从2014年的20~22纳米制程,到2024年SK海力士(SK Hynix)跨入10纳米制程,整整花了10年的工夫。如果在过去摩尔定律还适用的年代,这样速度的制程进展只能算是前进2个时代节点,这是过去用3年时间就可以取得的成果。DRAM制程进展如此迟缓当然是因为DRAM物理特性所造成的限制:DRAM的记忆单元是电容,而电容值(capacitance)与电容面积成正比。在制程持续微缩过程中,电容面积理当会变小,因而电容能保持电荷—就是存储器单元中的信号—的时间会缩短,因此每次制程推进时,还要维持电容值不变,这就成了DRAM新制程研发时的最大梦靥。没有快速的制程推进,就无法在同一面积芯片上提高效能、持续快速的创造新价值。兼之DRAM进入1b、1a制程后,使用昂贵的EUV似乎无可避免,这让单位面积成本的下降更为艰难。如果制程快速推进无法成为芯片增加经济价值的手段,就得有其他增加价值的方式。譬如说,创造应用面的价值。目前DRAM在各类应用的标准界面相继出炉正是此一趋势的显现,从原先主流的DDR(Double Data Rate),再到适用于移动系统的LPDDR(Low Power DDR,节能)以及GDDR(Graphic DDR,宽频)、HBM(大容量、超宽频)等。也就是说,DRAM产品虽然还有统一的界面标准,但是产品市场正逐渐走向碎片化过程之中。产品市场分化的下一步就是定制化。定制化产品的供应与需求中间的关系是专买与专卖,因此可以很大程度的避开大宗商品(commodity)市场典型的周期性起伏状况。改变产业的生态样貌、藉以避免业务及财务的大幅震荡等,也许是这些想定制化HBM存储器公司的考量之一,特别是存储器市场现在正在经历为时不短的周期性价格低谷时期。但是市场开始分割细碎后,规模经济的威力也会跟着降低。原先DRAM市场由3家大公司寡头垄断的局面也可能会因之改变。原先DRAM产业的进入壁垒主要是规模经济以及先进制程相关的专利障碍。但是现在DRAM制程演进迟缓,兼之有许多小生态区开始出现,可以提供小公司的牛油与面包,寡头垄断的市场生态有可能变化。这也许部分解释SK海力士目前技术的想法。HBM4存储器的堆叠部分仍然可能选择统一的标准界面,在设计及生产上仍能大致维持规模经济的効力;定制化的任务就局限于底层的逻辑芯片。这样的安排大致能维持规模经济与定制化的均衡,获取最大利益。只是产业的产品界面标准存在的前提,是所有产业中生产产品的公司以及产品使用者愿意共同遵守。如果有些公司选择专有界面,便无业界统一的界面标准。无论如何,这是2025年就应该会有答案的,而其结果将牵动DRAM产业的生态样貌。
论AI的自由与约束
在人工智能(AI)迅速发展的环境中,有关伦理问题以及可能限制其发展的辩论变得日益突出。透过密尔(John Stuart Mill, 1806~1873)的作品《论自由》(On Liberty),我们可以探索合理限制AI发展的观点,强调在合理的范围内,个体自由、进步和追求知识的重要性。密尔的《论自由》被严复翻译为「群己权界论」,奠定理解社会控制和个人自由平衡的基础。我试图将密尔的哲学应用于当前AI发展的时代背景,以了解如何界定群己权。密尔主张自由开放的思想交流(Self-Development),或「思想市场」 (marketplace of ideas),是社会进步的重要因素。在AI发展的领域中,不受限制的信息和创新概念流动促进多元观点环境,有助于知识的成长。密尔强调个体自治(Individual Autonomy)。正如个体应该自由追求自己的兴趣和自我发展,AI系统作为人类创造力的延伸,应赋予演进和适应的自主权,以改善人类生活并应对复杂社会挑战。AI的发展改善人类生活,并增强应对复杂社会挑战的能力。在此过程中,必须尊重使用者的个体权益,并促进社会和谐。密尔的伤害原则主张(The Harm Principle),限制个体自由的唯一理由是防止对他人造成伤害。密尔的哲学也告诉我们须负责任地谨慎开发AI系统,遵从道德准则并优先考虑人类福祉,让其发展不会产生本质性的伤害。在AI算法的训练中,如果基于不公正的数据集或缺乏多样性而导致歧视性结果,则应限制这类不公平和歧视性的AI应用,确保考虑到社会的多样性。然而,我们很难限制AI算法,避免其误入歧途。 可行的方法是在AI芯片的设计中,直接加入艾西莫夫(Isaac Asimov, 1920~1992)的机器人三定律(Three Laws of Robotics),并在芯片制成过程中,将其直接写入硬件。密尔警告多数的专制(The Tyranny of the Majority),强调压制少数意见的危险。例如社交媒体平台的AI算法过度强调某一特定观点,可能形成信息泡泡(filter bubble),多数用户仅看到和接触到相似的意见和观点。这样的专制可能使得不同意见的少数群体的声音被忽视,并进一步加剧社会的分裂和不理解。密尔倡导紧密连结社会进步与知识和创新 (Societal Progress and Innovation) 的追求。AI是人类巧思的体现,从医疗到教育等各个领域实现变革性的进步。然而,AI发展也必须有序权界,社会才会健康的前进。密尔的《论自由》为深入探讨AI发展提供重要的伦理框架,强调拥抱个体自由、思想市场和知识追求的原则,是推动人类进步的核心价值。然而,在引导AI发展时,必须谨慎遵循负责任的道德原则。我们可以探索合理限制AI发展的观点,引导未来AI的方向,确保其符合人类整体利益,并实现可持续、负责任且对人类有益的发展。
高带宽存储器风云(二)存储器业者的选择
存储器产业中个别企业,如何考虑增加HBM带宽技术方向的选择呢?SK海力士(SK Hynix)是首先量产HBM的厂家,也是目前HBM市占率最大的厂家,约占市场一半的份额,其动向有指标性意义。延伸报导名人讲堂:高带宽存储器风云(一)进程技术的分野2023年11月Korean Business报导SK海力士的HBM4将采取2.5D扇出型先进封装技术,目的是要省却矽通孔(Through Silicon Via;TSV)昂贵的费用,而且有更多的I/O方式选项。报导中解释封装做法是将2片个别的芯片封装整合成1个,而且无需使用基板,堆叠后厚度会大幅降低。但是完全没解释如何将高达12~16层DRAM上下线路连通,而这原是TSV执行的功能。之后的报导都是这个报导的衍生物,未有新的信息。SK海力士4月19日发布新闻,说与台积电签订合作生产下时代HBM的备忘录。这个合作采用什麽先进封装技术呢?备忘录中也未说明,只在末了表示会优化SK海力士的HBM与台积电目前正在使用的CoWoS(Chip on Wafer on Substrate)技术的整合,以响应一般客户对于HBM的需求。备忘录中还有一个亮点,SK海力士计划使用台积电的先进制程来制造前述HBM底层的逻辑晶粒,增加额外功能,以满足顾客定制化的需求。这个做法以下将展开讨论。事实上,SK海力士自己已研发过铜混合键合技术,结果也在2022年、2023年发表在学术期刊以及会议论文集(conference proceeding)。另外,SK海力士与英特尔(Intel)和NTT于1月底发布在日本的共同投资,其投资标的也是矽光子。新闻中特别提到存储器芯片与逻辑芯片的连接,显然针对的是HBM与CPU/GPU之间连接的应用。只是这投资计划于2027年量产,对于HBM4的生产是稍为迟了一点。无论如何,SK海力士是做好了两手准备。台积电早已宣布于2025年开始量产矽光子,虽然起始的客户可能是其他客户,但是2026年肯定能用于HBM相关的生产,如果技术的选择是如此的话。综合一下上述信息,SK海力士对于HBM4的规划大致在原先2.5D封装或3D封装之间,取得价格与效能的优化;较长远的目标则是移往更快、更节能的矽光子。三星电子(Samsung Electronics)也早已验证以铜混合键合16hi DRAM堆疉的HBM,结果也早发表于期刊和会议论文集。三星也在2023 OCP(Open Computing Project)Global Summit中,发表其对于矽光子的想法。前文中类似CoWoS的结构与现今的先进封装结构相似,开发较容易。但是因为HBM与CPU/GPU底下都得加装光/电转换器,而且中介层需要以光通道替代,成本无疑会更高;而HBM置于封装之外的做法是新尝试,可能需要更多的发展努力,另外还要脑律散热问题。无论如何,三星也是做好两手、短中期准备。但是三星还有自己的逻辑设计、制造能力,包括CPU/GPU的设计和制造生产,它的利害与考虑不一定与SK海力士会一致。美光(Micron)在HBM上是后进者,目前正在急起直追,因此发表或公布的技术方案消息较少。最近的报导是它与其他厂商正在共同开发HBM4,技术方案目前没有详细内容,报导只说倾向于采取与韩国厂商不同的方案。HBM4量产预计在2026会先上12hi的,2027接着上16hi的,数据引脚数量会倍增到2,048。HBM4如果有业界共同标准,在2024、至迟2025就应该制定标准并公布,目前似乎离达到产业共识还有一段距离。因为在异质整合技术的采用上仍留有变动空间,而且此一技术选择将影响存储器次产业的面貌,甚至整个半导体生态区的重新配置。 
高带宽存储器风云(一)进程技术的分野
高带宽存储器(High Bandwidth Memory;HBM)是具有高带宽的图形存储器(Graphic Memory),其主要的功用是支持高效能运算(High Performance Computing;HPC)或人工智能运算中与CPU/GPU联合执行高速的平行运算。  HBM由数个DRAM堆叠而成,每个DRAM中又由许多容量较小的存储器单元组成。大数量的小存储器单元以高带宽的I/O与多核的CPU/GPU相连接,当成平行算中使用的缓冲存储器。 HBM的统一标准由JEDEC于2013年公布,2015年SK海力士(SK Hynix)率先开始量产。 以最近的产品HBM3E为例,其容量可达36GB,DRAM的层数为8~12层(8hi or 12hi)。最重要的,其数据引线(data pin)数目为1024,代表它可以同时提供1,024个数据平行储存。为了实施如此高的数据引线,在堆叠DRAM与中介层(interposer)之间使用将近4,000个微凸块(micro bump),而其间距(pitch)相当紧密—55微米,这已经接近微凸块技术的密度极限。HBM在多层DRAM堆叠的底层中,还有一个逻辑制程的基底晶粒(base die)。DRAM层与层之间的信号由矽通孔(Through Silicon Via;TSV)连接。目前异质整合HBM与CPU/GPU使用的先进封装技术为CoWoS (Chip-on-Wafer-on-Substrate),是2.5D先进封装的一种。在此封装中,HBM与CPU/GPU置于同一平面上。其下有一个中介层(interposer),HBM与CPU/GPU金属垫(metal pad)中的信号透过与其黏着的微凸块、由中介层内的连线(interconnect)送到另一边的微凸块上,这就是目前存储器与逻辑芯片异质整合的工作架构。 当HBM要再进一步演化、扩大带宽,预计其DRAM堆叠的层数将从原先的8~12层,再成长成12~16层。其数据引脚数则自1,024成长至2,048。所需要的微凸块数目可能会超越以目前的封装方式所能提供的。未来的HBM要与其协作的逻辑芯片会以何种方式异质整合,即为目前产业界看法有分歧的地方。  要提供更高的带宽,目前看到的可能技术有2种:铜混合键合(copper-copper hybrid bonding)与矽光子(silicon photonics)。  铜混合键合的工作概念相当简单,基本上是将2个分别制造的晶圆上重分布层(Reditribution Layer;RDL)面相对的黏贴在一起—金属对金属、氧化物对氧化物。这样2个芯片之间的信息传递就不必像传统封装的方式:先将一个芯片上的信号用与金属垫(metal pad)连接的微凸块引出,再用金属连线将信号送到另一个芯片对应的微凸块上。  铜混合键合大幅缩短信号传送距离、降低相应功耗,也改善其他的物理性质譬如寄生电容(parasitic capacitance)以及电阻值。最重要的,它的金属垫间距(metal pad pitch)可以降到10微米以下,最近的学术文章已开发出400微米的金属垫间距。这个数据显示用铜混合键合能提供比用微凸块高1至2阶秩的带宽,对于HBM4的更高带宽的需求显然没有问题,而且还有再进化的空间。  矽光子的基础运作机制也很简单:用光子来替代电子,成为传递信息的主要载子。它的好处显而易见:光子的速度比电子快100倍,而且光子在光纤中或光通道中传导理论上不会发热,不像电子在金属中传导一定会产生焦耳热(joule heat)。这个事实的应用其实很早就开始实施了。数据库之间、数据库至家戸之间早就以光纤替代电缆,接下来的挑战是在同一封装中甚或同一芯片中使用光子传导信息此一机制,前者就是现在热议的共同封装光学元件(Co-Packaged Optics;CPO),而后者就是矽光子。  目前NPU、GPU元件都已进入CPO中试验并取得成功。这是CPU/GPU与HBM的整合方案之一。实施矽光子的异质整合方法有2种。一种是沿用前述的2.5D先进封装结构,将中介层的铜连线改变成矽光子的光通道。另外,由于利用光子来传递信息,CPU/GPU与HBM两头都要装上光/电的转换元件。这个方法产业比较熟悉,但是成本较高。另一种方法是把HBM置于封装之外,利用矽光子芯片线路与CPU/GPU连接。这个方法DRAM部分可以维持相当的独立性,但是开发可能需要较长的时间。 相对的,铜混合键合在近年来已渐趋成熟。除了CIS(CMOS Image Sensor)早已派上用途外,像超微(AMD)将CPU与SRAM分别制造后,再用铜混合键合异质整合在一个3D先进封装之中。这些都是此技术成功应用的范例。矽光子与铜混合键合就是现在产业界面临的技术方向抉择,这个抉择的后果影响既深且远。 
算力即国力,也是王道
数周前NVIDIACEO黄仁勳在GTC 2024大会上发表新一代的GPU (B100/B200)。这B系列的GPU打破相当多纪录,首先这GPU是由2颗独立的芯片并排结合而成,采用台积电先进的4纳米N4P制程,而接合的方式是利用台积电CoWoS(chip on wafer on substrate)先进封装技术。每一个芯片内涵1,080亿个晶体管,这是首次单一芯片晶体管的数目超过1,000亿颗,2颗加总共有2,160亿颗。1980年代我们在念半导体的时代,1个芯片所含晶体管的整合度,由SSI(small scale integration),到MSI、LSI以及最后的VLSI(very large scale integration)。VLSI所定义的单一芯片所含晶体管的数目,也不过是100万颗。现代的科技将这个数字推进10万倍。我们都知道GPU的算力跟晶体管的数目是直接相关,要增加晶体管的数目,一则是利用微影技术缩小晶体管的尺寸,另一则则是增大芯片的面积。就增大面积而言,在NVIDIA B系列前三代的GPU(H / A / V系列),芯片的面积就已经超过800平方厘米,将近3厘米的平方。事实上这芯片面积,包括B系列在内,已经是12寸晶圆的极限,若继续扩大芯片的面积,良率及在1片晶圆所能产生的芯片数目,都会受到很大的影响。在无法继续增加芯片面积的限制下,将2颗芯片利用先进的封装技术,紧密并排在一起,如同1颗大的芯片,将会是未来的常态。苹果(Apple)M1 Ultra处理器,就是由2颗M1芯片并排组合而成。吊诡的是,这回B系列GPU使用的是台积电进阶版N4P制程,与前一代H系的N4相比,根据台积电所公开的数据约是效能提升6%。然而,以单颗B系列的芯片为例,其晶体管的数目相较于H系列,增加约30% (1,080亿颗 vs 800亿颗)、功耗约略减少30%(500瓦 vs 700瓦),换言之,效能提升将近50%。除非NVIDIA在B系列的GPU设计架构上,做了重大突破,否则很难想像这50%的效能改善是从何而来?个人认为很大的改善在于,这2个芯片中的数据传输的损耗大幅下降。2个芯片中所传输的数据量是10TB/s,也就是每秒传输10的13次方的数据量,而M1 Ultra的数据量却是2TB/s。紧密结合芯片中的数据传输所产生的功耗,是远小于数据由芯片传输到印刷电路板上,再到另一个芯片上。两者之间的功耗差距,除了距离长短之外,芯片与电路板间的阻抗不匹配,都会造成传输上的损耗。换言之,在不断需要提升算力的同时,利用先进封装将几颗运算芯片,紧密地结合在一起,未来将会是一个关键。如同利用矽光子及CPO(co-package optics)技术,将数据中心的交换器,大幅地减少其功耗及增加传输数据,是相同的道理。算力除了跟芯片效能有很大的关系外,也跟计算机的架构有关。我们以人工智能运算及量子运算为例,最古典的运算如附图(A)所示。运算犹如一排车阵中,靠时序的控制(sequential control),一部车启动后接着另一部,到最后一道指令,才完成整个车阵的纾解。然而在AI的运算中如附图(B)所示,使用大量平行运算,1个GPU内部包含了数以千计的运算核心,因此算力远大于古典的运算,但基本上仍存在时序的控制。量子运算就完全不同了,如附图(C)所示,在并排的车阵中利用量子的纠缠(entanglement),就宛如一张网络将所有的车子四面八方的圈住在一起,没有时序的控制,一声令下就全员移动,因此算力又远大于AI,相较之下所耗损的功率却少了很多。然而要产生量子纠缠,必须要在极严苛的环境下产生,如超低温及超低杂讯,有太多不可控因素,所以时不时会有错误发生。个人浅见是,量子电脑很难成为一个商品化的产品,更谈不上可靠度及品质管理系统。最有可能是大型的研究机构或大公司的研发部门,拥有台量子电脑,而且每售出1部量子电脑,原厂就得要有一组工程及技术人员进驻该单位。不可否认算力即国力,GPU/AI的算力在未来一段时间内,仍然会是主流。在算力不断地被要求提升之下,芯片的功耗及信号的传输量,会是瓶颈之所在。先进的封装技术如CoWoS,将会是各国所关注的焦点。
等待AI果陀
2024年的台湾国际科展邀请我进行大师讲座,分享AI「做中学」。生成式AI(generative AI)的出现,对人文及科学会造成不小影响,很多高中老师避免思考生成式AI对他们专业的影响。生成式AI开始侵袭某专业时,专业人士难免有抗拒之反应。过去对「专业」无条件的接受,似乎是台湾学校教育的普世价值,今日,这种执着很危险。当生成式AI辗压人类的专业时,或许正是我们进行反思的最好时刻。专业知识的灌输并不足以培育完整的个体。通过专业教育,虽然可以训练一个人成为实用的工具,但不能保证他能成为一个和谐发展的人。培养学生对价值观的理解和情感上的投入更为重要。他们需要具备对美和道德的敏锐识别力,以建立更全面的个人发展。否则,即便拥有丰富的专业知识,可能只是像一只经过良好训练的狗。生成式AI最擅长学习专业,更容易胜过人类,被训练成为比人类更厉害的机器狗。全盘接受「专业」不对,完全臣服于「生成式AI」也不妥。要避免被AI取代,必须超越专业训练的思维,思考自己本业能更进一步创造的价值。这个价值是甚麽,会随领域而不同,只能各自尝试体会。贝克特(Samuel Beckett, 1906~1989)说: 「尝试过、曾经失败过, 没关系。 再试一次、 再次失败,我们会失败得更好。」这是我们面对AI时代的状况。必须「我无法继续下去,但我会继续。」贝克特是上世纪五十年代「荒谬剧场」的主要作家之一。「荒谬剧场」主要成员是欧洲剧作家,以荒谬小说戏剧而闻名,探讨当人类失去存在目的时会发生什麽,展示从逻辑沟通到非理性和不合逻辑,最终导致沉默的过程。贝克特于1969年获颁诺贝尔文学奖,表彰他以小说和戏剧的形式,在现代人的贫困中获得卓越(in the destitution of modern man acquires its elevation)。贝克特的许多作品都聚焦于人类在生活中无法克服的荒谬情境,包括《墨菲》(Murphy;1938年)、《等待果陀》(Waiting for Godot;1953年)、《克拉普的最后录音》(Krapp’s Last Tape ;1958年)和《幸福时光》(Happy Days ;1961年)。 这几本书很值得年轻学子阅读,从中寻找AI造成人类贫困时代(destitution)的生存之道(elevation)。年轻人可能迷惘于等待何种AI果陀,但千万不要气馁躺平。马克吐温如是说: 「 二十年后,你将会感到更多的失望。你会对于未做的事情感到遗憾,而不是对于你已经做过的事情。这意味着,要避免这种结果,你必须摆脱阻碍你的限制。远离安全的港湾,投身于狂风肆虐之地。探索、梦想并勇往直前。」 在AI时代,必须如此。《等待果陀》的果陀是何物,贝克特没揭晓答案,因此众说纷纭。等待果陀,时光易逝。布朗宁(Robert Browning)说: 「和我一起变老!最好的尚未来到,……青年不过展现人生一半:相信上帝,看见所有,也不要惧怕!!」在AI时代读此句子,更有感触。我希望,年轻的学子终能找到他们的AI果陀。