臺湾量子电脑的发展策略
当IBM Condor的量子位元数已经高达1,121个、Atom Computing Phoenix的量子位元数也已达1,180个,臺湾的量子计算研发2024年才刚刚跨出5个量子位元的原型(prototype)量子计算机的第一步。 量子计算的量产也许不会在立即的未来发生,但是也不会太远,至少目前各方瞩目的PsiQuantum预计在2027年年底开始量商用的机型,并且在2029年达到全尺吋容错(fault-tolerant)系统。 量子计算的商业应用有很大的机率如同人工智能般产生巨大经济价值而重新分配财富,而新财富的分配通常只限于创造经济价值的参与者。以目前在量子技术核心量子位元(qubit)及量子闸(quantum gate)还远远落后前沿科技的开发进度,臺湾在未来的量子時代还有机会在科技新時代分到相应贡献的经济价值吗?答案是有可能的,而且已经悄然发生中。 看现在的人工智能服務器(AI server)便可以明白臺湾会以怎样的策略切入这明日之星的新产业。 其实臺湾的产业几乎没做过基础科研,除了臺湾基础科研的整体体量较小外,对于公司资源的配置,也有基于公司经济尺吋的现实考量。 要在新领域独占鳌头,要做长时间、领域广泛的研发投入,后者基本上是保险策略。极致的例子是IBM以前Watson Lab的风格,机构可以供养科学家以及研究经费做与公司业务没有直接关系的基础科研,甚至因为这些工作而获得诺贝尔奖! 臺湾的公司绝大部分是中小型公司。即便像臺积电在臺湾排市值排名第一的公司,在本世纪之前也未能进入全世界前100大之列。因此对技术硏发的策略长期偏向于做短、中期的技术发展(development),题目的选择与短期内订单的可见度有明显的相关。采用这样策略的风险较低,资金的利用效率较高。以产业内较直白的话来说,就是不见兔子不撒鹰。 不从先期的基础科硏下手、取得先行者的有利位置,却冀望取得产业带来的利益分配,靠的是什么?答案是供应链。 一臺量子电脑会大致有下列模塊:量子处理单元(QPU;Quantum Processing Unit)、控制和读取电子设备(control and readout electronics)、同相/正交混频器(IQ mixer;In-phase/Quadrature mixer)和FPGA 板、低温系统(cryogenic system)和真空系统、经典处理(classical processing)及回馈系统、軟件堆叠(software stack)、校准和诊断工具(calibration and diagnostic tools)等。这些模塊各负责一些功能,譬如经典处理及反回馈统统中就包含经典服務器及纠错控制器(error correction controller)。 以IBM最近1,121位元的Condor这款发展过程中的原型机为例,零组件的数目大约在11,000~16,000个之间,供应链的公司数在150~200个之间,但这数目只适用现阶段的原型机。如果是商用的机型,零组件数轻易会上数十万,因为有些零组件会随位元元数线性成长的。 对照于NVIDIA DGX GB200 NVL72的AI服務器,其中也有10个出头的模塊,合计有大约100,000~200,000个零组件。虽然其中主要的GPU不是臺湾设计的,但是芯片制造之后全在臺湾。臺湾AI服務器的出口,2024年占全世界93%,这是臺湾在此领域150~200家供应链力量的展示,而这力量是沿承自90年代的PC/NB供应链。记得90年代PC/NB产业的口号吗?除了CPU,我们什么都有。供应链不是可以一蹴而就的,因此也很难突然被取代。 未来的先进计算,如果含量子计算,很大机率是包含AI服務器的混合服務器(hybrid server),而且现在的量子计算机就已经包含服務器。 所以臺湾合理、合时宜的量子计算发展策略就是依著沿PC、AI服務器的供应链思路,以供应链的方式参与新产业的兴起。 臺湾的几家电子制造服务公司(EMS)都已经开始踏入这个领域。有的从0开始,建立量子位元研发团队;有的投资量子新创,同时建立公司内的量子团队。如果没法在最关键的研发领域领先,至少先暖身一下。毕竟量子不像传统的电子产业,观念上需要跳跃性的前进。 这样做有异于不见兔子不撒鹰的传统原则吗?并没有。产业链龙头企业NVIDIA已经提出CUDA-Q的架构,也有报导在评估投资量子计算新创公司的打算。兔子已经在视线之内了,正是撒鹰时机。
军事通讯—说码人加密
军事通讯技不断精进,操作通讯系统的兵种就愈分愈细,最早只要一个旗兵。进入电子战后,通讯兵的分工还挺细的。例如话务通讯兵负责发送信號,而译电通讯兵负责接收信號。在体制上虽然是不同功能,但作战时,可没有那么讲究排场,话务和电译就由同一位通讯兵包办。这个兵种往往脑力操劳,要背诵一堆编码,防止通讯的内容被窃听。如何想出让敌人无法破解的口令,更是兵家必争。第二次大战时,德国使用Enigma加密机,配备于U-boat潜艇,行迹飘忽不定,在大西洋击沉大量盟军船只,急得英国首相邱吉尔(Winston Churchill )直跳脚。今日以自然语言AI技术模拟通讯者的生物特征及说话特性,成为加密的金钥,产生AI说码人系统的发展是一个令人感兴趣的领域。模拟通讯者的定制化特性,成为加密的金钥,军队早已采用,是所谓的「说码人」(Code Talkers)加密。说码人其实是话务/译电通讯兵,不同之处是他们像中国以前秘密帮派,会中兄弟谈机密时,就说起「帮派切口」,旁人听不懂。甲午战争时清朝曾以温州话加密;第一次世界大战时,美国采用巧克陶族(Choctaw)的印第安语传送机密军事信息,成功地攻击德军。德、日两国学到教训,在第一次大战后送一堆学生到美国学印第安语如Cherokee、Choctaw,和Comanche。美国军方发现此一现象后,担心德、日两国有能力解码,曾经考虑放弃「说码人」制度。此时一位工程师,也是第一次世界大战的退役军人江士顿(Philip Johnston)建议以鲜为人知的纳瓦荷语言来编码。江士顿从小生长在纳瓦荷印第安保留区,和纳瓦荷族人交往,熟悉纳瓦荷语言及习俗。纳瓦荷的语言结构复杂,较以前的印第安语言更适合用于加密。经过江士顿展示后,美国海军陆战队决定采用这个提案,立即征召雇用29名纳瓦荷族原住民,由他们开始编码工作,总共使用411个字汇。海军陆战队在第一层编码上再以字词取代(Word Substitution),做第二层的加密,例如「Gini」这个纳瓦荷字翻成英文是「Chicken Hawk」,而真正的军事用语是「俯冲轰炸机」(Dive Bomber)。第二次大战期间美国总共动用400位纳瓦荷族的说码人,这个口令一直到大战结束,都未曾被破解。很讽刺的是,1861年时,美国白人将最早的旗语通讯用于和纳瓦荷族的作战,而在第二次大战期间却靠纳瓦荷族来协助美军进行作战通讯,编入美国海军陆战队。2002年电影《猎风移動》叙述1944年,美军在太平洋塞班岛战场上,纳瓦荷族说码人的故事。这部电影点出很基本的人性问题。军方必须全力保护「加解密机」,可是当说码人这个「人肉加解密机」有落入敌人手中的疑虑时,必须先行毁灭。奉命执行毁灭任务的同袍如何下得了手?这个矛盾成为电影诠释的重点。当前科技发展已经实现加密的自动化和数据化,不再需要人工的介入。然而,利用自然语言人工智能(AI)技术来模拟通讯者的生物特征和说话特性,作为加密的金钥,这是否能够强化加密的效果呢?AI说码人系统的发展是一个引人注目的领域。通过应用自然语言处理和机器学习技术,AI能够模拟通讯者的生物特征和说话风格,成为加密的关键。然而,要建立一个全面且安全的说码人系统,需要深入了解特定语言、方言以及文化背景。此外,发展强大且安全的通讯系统还需要考虑超越仅透过文字互动可以实现的因素。目前,AI说码人系统的发展仍需更多的研究和努力。
Edge AI产业来了吗?
相较于目前大语言模型应用绝大部分在云端服務器上推论,Edge AI(边缘AI)强调在装置上独立执行AI模型。这种架构差异在于:可大幅降低因網絡传输造成的延迟,确保實時反应,即使在无網絡离线下也能运作;數據不上传云端,确保數據私密与安全性。Edge AI有机会满足许多新应用场域中对低延迟、高私密的关键要求。这半年来,透过技术突破、产业需求,以及发展轨迹,我们看到Edge AI的产业轮廓,正逐渐形成。模型演算法的高度竞争使得Edge端可用的AI模型愈来愈强大。近年来出现许多参数量在13B~70B级的精简模型,透过知识蒸馏、量化压缩、模型剪枝以及多专家混合(MoE)等技术,这些小模型在使用较少参数的同时还能大幅提升性能,缩小与大型模型的差距 。同时也配备了各种终端应用极度关键的推理(reasoning)能力,包括控制、决策、因果、规划等。SoC与存儲器规格配置同样是促成Edge AI崛起的要素。目前主流高端智能手機、NB的NPU(AI运算核心)已经接近100 TOPS,足够让这些终端模型每秒生成数十个token(语意单元),满足应用场域(文字、语音对话)的生成品质要求。同时,透过低位元精度(如8或4位元)来表示模型权重,有助于大幅降低总位元数,使现有存儲器配置即可支持终端AI推论,释放AI从云端走向终端的巨大潜力。另一方面,各大厂商也在其芯片产品蓝图中,明确规划未来的算力提升,进一步强化Edge AI可行性与效能。在初期应用情境中,智能手機成为Edge AI生态重要桥梁。手机不仅是首批受惠于AI能力提升的装置,更自然作为云端与各类在地智能装置之间的桥梁。透过手机,无线耳机、汽车、AR眼镜等装置都能与云端和手机上的AI模型连动,实现多模态的Edge AI应用。例如,耳机可使用手机(AI模型)實時翻译语音,车载系统可依靠手机辅助娱乐信息,眼镜则利用手机处理视觉、语音任务。智能手机作为随身超级终端,串联各种周边装置,历史轨迹也告诉我们,当網絡封包(packet)的成本逐步下降,通讯功能便普及至各类终端设备。10年后(2017 年),移動产业达到高峰,无论是应用生态系或硬件供应链都蓬勃发展。同样地,随著token成本不断下降,AI 能力延伸至新型态终端设备,触发全新应用场景,也是值得期待。延伸报导专家讲堂:鉴往知来:packet(互聯網)vs. token(大语言模型)垂直产业中也听到应用面需求。过去手机SoC供应商的技术团队,首要工作是优化品牌手机中鏡頭应用的智能功能,但从2024年开始,优化手机中LLM执行效率,成了品牌客户的关键需求。工业场域中,也对于推理功能加速决策效益,工业机器人的执行效率多所期待。过去几年,NAS在中小企业中大量采用,年复合成长率超过 15%,显示这类用户对數據管理与在地运算的高度需求。如今,这些用户也期待能在终端设备上,享受到大型语言模型所带来的自动化与知识管理功能。近来市场数据也显示Edge AI正逐渐萌芽。在最新的季报中,苹果(Apple)新款M4芯片强调AI效能,推动2025年第1季Mac营收年增15.5%,更值得注意的是,新芯片也在2024下半年吸引新用户进入苹果体系。高通(Qualcomm)因手机与车用AI需求激增,手机业务创新高,汽车业务更年增55%,公司也宣称「Edge AI是未来业务成长主要推力」。NVIDIA的Orin车用AI平臺单季营收年增103%,并与联发科合作布局一系列全新终端SoC。芯片设计商与设备供应商正从Edge AI中实际获利。也同时看到OpenAI 以约 65 亿美元的全股票交易方式收购了由前苹果首席设计长 Jony Ive 共同创立的 AI 硬件新创公司 io。这股趋势Edge AI已从概念走向实质商业成长。尽管前景看好,Edge AI推广仍面临多重挑战。首先是应用场域的扩展:用户需求差异极大,不同行业与装置对模型大小、功能要求各异,业者须在通用性与定制化间取得平衡,如何取得具泛化能力的精简模型,解决场域问题,至关重要。其次是功耗与效能的权衡:终端装置受限于电池与散热条件,高复杂推理恐导致过热与续航缩短,对芯片设计与电源管理设下更高要求。再者,生态系初期碎片化,硬件架构多、軟件缺乏统一标准,让开发者必须针对各平臺个别调适,增加成本与阻碍创新。这些挑战若未克服,恐将削弱Edge AI的经济性与可扩展性。不过,回顾移動产业的发展历程,也为今日的Edge AI前瞻团队提供宝贵借镜。
鉴往知来:Apps(移動網絡)vs. Agents(大语言模型)
在前一文中,我们类比互聯網(Internet)以及现今大型语言模型(LLM)的发展轨迹,特别是互聯網的核心传输单位—封包(packet),LLM生成单位—语意单元(token),在基础设施、商业模式发展上呈现出明显相似性。透过回顾packet的发展路径,我们试著描绘出token驱动的AI未来发展轨迹,并预判在产品形态、服务模式与产业价值链上的可能样貌。另一可供借镜的历程,是应用程序(App)在移動網絡时代所引爆的创新与变革。如今,在LLM/LVM多模态大模型推动下,一个以「Agent」为核心的应用生态正逐步成形。延续上文,我们尝试从App的崛起历程,看见代理(Agent)以及边缘AI(Edge AI)未来的可能路径。2007年开始,移動App实现實時互动与高速數據交换,移動用户大量增加,源自于網絡封包传输成本逐步下降,智能手機的运算效能与续航力的进展。App Store的出现更将过去分散、复杂的网页互动模式,整合为图形化、易于操作的应用程序界面,大幅降低使用门槛,使數字服务真正「移動化」、「普及化」。App 不再只是单一功能工具,更透过推播、定位、社群整合等特性,深度嵌入使用者生活。这也带动「长尾效应」—不仅少数爆红应用,而是无数利基型App满足多元、个人化的需求。这场从网页到App的转变,不只是界面革新,更兴起全新App驱动的生态系,翻转整个數字服务的生产与分配模式,也同时快速推升移動設備的需求(2017年达到高峰)。App Store 建构出一套双边市场机制,一端连结开发者创新、另一端连结全球使用者,使原本无法规模化的服务得以商品化、在地化与全球化。过去崭露头角的數字服务如Uber、LINE、Instagram皆倚赖App生态兴起,而App的爆发也带动芯片、傳感器、模塊、电池、存儲器等硬件需求,重塑移動設備供应链结构,并促成新兴品牌与 ODM/OEM 的崛起。Statista统计显示,全球App下载量自2010年的60亿次,成长至2023年的1,430亿次,反映出App模式背后强大的规模经济与網絡效应。臺湾厂商在这波移動化浪潮中,从晶圆代工、封装测试到系统整合与 App 开发皆深度参与,建立完整供应链与生态網絡。这段历程不仅重塑移動产业结构,也为即将兴起的AI代理(AI Agent)模式提供宝贵借镜——当使用者界面再次从App进化为Agent,我们是否能抢先洞察使用需求、运算架构、标准制定与硬件整合的关键优势?如果App是移動網絡时代的使用界面,那么由大模型LLM/LVM驱动的Agent,可能是 AI 时代的核心入口。Agent不仅理解自然语言(及各种傳感信號),还得具备任务规划与执行能力,从单纯对话升级为數字助理。透过多模态推理与工具链结,Agent的应用场景正快速扩展至自动化工作流程、专业咨询、教育训练与知识辅助等领域。未来极可能出现类似「Agent Store」的新型生态系,就如当年App Store一样,汇集多样化、可重组的智能模塊,满足多样性需求。这将加速硬件与軟件的分工整合,促进各种垂直应用场域(如工业、医疗、中小企业、消费者市场)中智能代理的落地机会。随著近来高效率推理模型的快速演进,以及LLM开源生态的蓬勃发展,更进一步推进这样的可能性。同时,终端市场的实际需求也正在浮现,如中小企业的知识管理、自动化应用,以及工控领域中實時推理能力的渴望,也回应了市场的需要。终端装置的硬件规格,也逐渐具备支撑Agent所需的AI算力与存儲器条件。随著LLM开源社群快速演进,如13B等级模型已能在一般移動設備上顺利推理,token生成速度亦逐步接近应用需要,Edge AI的落地门槛正快速降低。根据预测,Edge AI芯片市场将自2023年的24亿美元,成长至2033年的252亿美元,年复合成长率高达26.5%。各大系统与芯片业者也已积极布局AI手机、车用SoC与AI PC平臺。未来,Agent将可自然地嵌入手机、筆記本電腦、AR眼镜、TWS耳机、机器人等多元终端装置,成为新一代语言互动与任务导向操作的使用界面。当然,Agent技术的普及仍面临诸多挑战,除了使用者數據的授权与使用,日益增强的自主性也带来安全、隐私、监管与伦理等层面的高度关注,技术本身的复杂度亦不容小觑。然而巧合的是,这些挑战与机会的交织,恰如2007年移動網絡时代初启时的情境—从应用模式、生态系到硬件需求与供应链架构,皆酝酿著重塑的可能。Agent的发展,正释出一种熟悉而微妙的信號,预告另一波产业典范转移的起点。
一个人武林的美丽与哀愁:论臺积电的先进制程与封装
从年初的CES 2025,3月的NVIDIA GTC,到4月臺积电在北美的技术论坛,以及即将登场的COMPUTEX,这几场科技大秀,在在显示AI服務器的发展与半导体先进制程及封装技术,有著不可分割的紧密关系。几年前NVIDIACEO黄仁勋在媒体上说过几次「摩尔定律已死」。当时我不太理解其中的涵义,直到最近读完Stephen Witt所著《黄仁勋传》(The Thinking Machine: Jensen Huang, Nvidia, and the World’s Most Coveted Microchip),才了解到个中道理。书中谈论到由2012年到2022年,GPU运算能力增加10,00倍,其中属于硬件的晶體管速度(clock rate)只增加2.5倍,换言之剩余的400倍来自軟件程序及数学公式。400倍相对于2.5倍,自然会说摩尔定律已死,更何况NVIDIA在黄仁勋眼中一直是家軟件的公司。但是事实真的如此吗?如果以NVIDIA GPU从2012年的Kepler到2022年Hopper GPU,制程技术由28納米演进到4納米,晶體管数目由71亿颗,一口气增加到800亿颗;运算的单元CUDA core也从不到3000个,扩充到将近15,000个核心。虽然晶體管的速度仅增加2.5倍,但是由於单一芯片的运算核心的数目增加了,算力自然就大幅的提升。如果再加上CoWoS及3DIC的先进封装技术,不仅将多个存儲器芯片(HBM)垂直堆叠在一起,而CoWoS技术更将GPU与存儲器芯片,能紧密地在水平方向摆放在一起。这些先进的封装工艺,最重要的就是希望數字信號这这些芯片中传输,能够走最短的路径。这样一来不仅信號传输的延迟可以缩短,功耗亦可以降低,算力自然就提升了。Blackwell GPU已经利用CoWoS技术,将2个GPU芯片无缝接轨地绑在一块,下一代Rubin GPU将会扩充到4个GPU芯片连接一起。臺积电更提出在2027年实现SoW(system on wafer)。也就是在硅片上或其他形式的基板上,水平放置更多的GPU,甚至开始做GPU的堆叠。这些先进制程及封装上的努力,无非是把更多的运算单元,及暂存的记忆數據,在很小的空间内完成执行,以增强其运算效能。依据此原则,同样的在服務器机柜的设计,也是希望在一个机柜内放置更多的GPU。因此GB系列一个机柜内有72颗GPU,到了下一代Rubin会有144颗GPU,而Rubin Ultra更在一个机柜内放置多达576颗GPU。机柜的设计也由原先水平摆放的tray盘,改为直立式的插槽,以增加GPU密度。这一切硬件上的努力,无非是要提升整体的运算效能,但也衍伸出电源的供应及如何散热的问题。GB服務器系列一个机柜所需的功率在120~150KW,Rubin Ultra将会达到600 KW~1MW。若是一个数据中心拥有500个Rubin Ultra机柜,那就约略等于一个核子反应炉所产出的电力。届时Rubin Ultra的散热,恐怕只有浸润式的液冷一途了。臺积电在4月的北美技术论坛,在先进封装领域著墨甚多。除了SoW、矽光子、3DIC之外,更规划在电源最后一级的转换IVR(integrated voltage regulator),嵌入至CoWoS内的中介层(interposer)。所以在先进制程上,臺积电已经是一个人的武林,不久的将来在先进封装领域,臺积电会是另一个一个人的武林。一个人的武林所衍生出来的就是,如影随行的反托拉斯法(antitrust)。为了淡化臺积电在先进制程的主宰地位,董事长魏哲家曾建议将先进封装也纳入半导体的范畴,借由分母的扩大以降低百分比率。然而目前实际上的发展,恐未能如其所愿。英特尔(Intel)之前为了解决CPU市场独占的问题,不仅付给超微(AMD)一笔和解金,并技巧地让超微成为有实力的竞争者。先进封装相较于先进制程,可以有较多的可行解决方案,群策群力,不必然是一个人的武林。美丽与哀愁,端视我们的态度与做法。
中国曝光机发展现况:EUV
中国工信部宣布DUV信息的同时,上海微电子也发布其2023年申请的EUV专利、2024年9月专利申请公开的消息。延伸报导专家讲堂:中国曝光机发展现况:DUV上海微电子的EUV使用的也是现在商业主流的二氧化碳(CO2)雷射,波长为10.6納米。钖的液滴(droplet)先用钕钇铝石榴石雷射(Nd:YAG laser)打成圆盘状后,再被CO2雷射离子化(ionized)变成钖电浆(plasma),然后其外层电子向低能量态跃迁(transition),释出波长约为13.5納米的光子。之所以要用如此复杂的工序来产生EUV光源,是因为在此波长没有自然的物质的能阶差可以产生如此短的波长。选择13.5納米是因为波长再短一些,就变成X光(0.01納米~10納米)。EUV也很可能是矽基半导体技术的最后一种光源。矽的共价键(covalent bond)长度为0.543納米,而要形成一个块材,至少也要有10几20个原子,否则界面的效应就会严重影响电子于其中的行径。13.5納米光的分辨率以及应有的工程努力如加大数值孔径等—最多再加上多重曝光—要处理这样的临界尺吋尽够用了。所以上海微电子的专利的权利请求(patent claim)主要在光源之外的系统。至于原型机或量产机型的交付,没有官方宣布或较正规新闻。2024年12月30日哈尔滨工业大学因「放电等离子体极紫外光刻光源」工作获得中国黑龙江省的科技创新成果转化大赛的一等奖。这奖只是地方奖项,能引起后续新闻报导自然是因为它牵涉到EUV的光源产生。它产生光源的方式与前述的以CO2雷射来离子化圆盘钖滴粒,借以产生13.5納米光源的工作方式—雷射产生电浆(Laser-Produced Plasma;LPP)不同,它是施加高电压借以离子化钖滴粒产生13.5納米光源,此种方法称放电产生电浆(Discharge-Produced Plasma;DPP)。报导中说它产生的线宽较窄(narrow linewidth)—也就是所有光的波长较集中于13.5納米、功耗较低。二者说法都有误导之嫌。LPP与DPP产生的EUV光都不是相干的(coherent)。如果硬要比较的话,LPP产生的光线宽较窄,但二者均可以经滤光器(filter)将线宽控制在可接受范围内。而DPP的原始功耗较低,恰恰好成为当初与LPP竞争成为EUV光源候选人时未能雀屏中选的主要原因。在相同的能源转换效率(energy conversion efficiency)条件下,光源较高的功率输出代表较强的光亮度(light luminosity),可以用较短的时间完成曝光,提高曝光机吞吐量。DPP EUV能量的提升(scale up)较为困难,因此用来当量产机臺的光源挑战也更大。最后是在2025年3月在《中国激光》期刊上中国中科院上海光学精密机械研究所由林楠领导团队所发表的〈1um激光激发固体Sn靶等离子体EUV幅射特性实验研究〉。林楠曾服务于ASML光源团队,对此题目的产业商业化考虑应该十分熟悉。文章中的1微米固态雷射(solid state laser)使用的就是前述用来将钖滴粒打成盘状的Nd:YAG雷射。固态雷射由于其体积较紧致(compact)、电光转换效率(electrical-to-optical conversion rate)较高(~20%),而且目前输出功率已达千瓦级,未来可能可以提升至万瓦级,有望取代CO2雷射,成为驱动EUV的主要雷射。文中指实验的能量转换效率已达3.42%,若用已商业化的1kW固态雷射,已可来做曝光验证、光罩检测(mask inspection)等工作,并且在一定条件下,进一步用于先进节点的临界尺度以及疉加精度的量测。也就是说,这是一个未来EUV机臺的研究起始点。产业此时的现实考虑是从CO2雷射波长10.6微米转换成Nd:YAG雷射波长1微米对于光源次系统是一个全新的转换,所有的工程工作必须重新来过,而且CO2雷射用于LPP EUV商业化已久,目前的成本远低固态雷射的。所以这个工作更倾向于对未来可能发展方向的研究准备,对于目前的先进制程的突破,短期间内是使不上力的。近期的这些报导距离真正的工程实施都有相当的距离,进步也比较片面。一个EUV曝光机包括EUV光源、光学系统、真空系统、光罩版臺及夹具(reticle stage and clamping)、晶圆臺(wafer stage)、热管理(thermal management)、计量和傳感器(metrology and sensors)、控制电子设备(control electronics)以及軟件及韧体(firmware),大大小小的零组件计100,000个以上,其中很多零件是专为EUV机臺量身定制的。建立此一庞大、复杂、精确的供应链队伍的难度,可能更甚于对单一技术课题的突破,我认为这是中国在发展自有曝光机的最大挑战。
中国曝光机发展现况:DUV
在中美贸易战中,美方施力的重点在于箝制中国高科技的发展的进程,特别是半导体、人工智能和量子计算,而前二者息息相关。 在半导体方面,美国的管制近乎遍及全产业链,从设计工具(EDA)、产品、制程设备乃于材料的禁运,中国自然是以国产替代以提高自给率,这也是涵盖全产业链的回应。 中国在半导体设备领域的弱点包括电子束测试机(e-beam tester)、离子植入机(ion implanter)和曝光机(lithography equipment)。 电子束测试机是量测机臺,基本上是用来侦测除错,不是制造过程的一部分。离子植入机—特别是高能量(~1MeV)的,对于高压碳化矽(SiC)MOSFET的制程至关重要。现在的电动汽车电压已早从600V迈向800V、1200V。没有高能量离子植入机无法制作车规高压功率元件,对于中国电子产业的零件自制率影响巨大。 最令人关注的自然是曝光机(lithography equipment)。曝光机的能力代表先进制程的终极分辨率(resolution),又与先进技术节点(technology node)直接相关。先进制程的主要应用之一是与算力高度相关的各式XPU,特别是专注于人工智能应用的GPU;另一个应用也是在人工智能芯片架构中的高帶寬存儲器(High Bandwidth Memory;HBM)。 从2024年9月起,中国就陆陆续续的传出各式曝光机进展的相关消息,对于全世界的半导体产业,这自然是头等的新闻焦点。 首先是中国工信部指导目录中的DUV曝光机,在2024年9月公布。 本质上,这就是一臺干式的DUV曝光机,光源是氟化氩(ArF)的准分子(excimer)雷射,氟化氩雷射波长为193納米 。 此曝光机的分辨率为65納米,如果假设系统中其他性质都已达最佳化,则其物镜(objective lens;系统中用于收集光线、用以呈像的主要透镜)的数值孔径(NA,愈大分辨率愈好)推算起来大概是0.75。如果要进一步改善分辨率,还要经过另一阵子的努力以达目前产业前沿水准0.93的数值孔径。也就是说,在光学系统的发展目前还处于较早期阶段。 至于其叠加精度(overlay accuracy;上下层图案的对齐精度)为8納米。要能产生65納米临界尺吋(Critical Dimension;CD)的制程,上下层的疉加精度要达临界尺度的20%左右,也就是13納米。如果要做双重曝光(double exposure),则叠加精度必须提高到13/2納米=6.5納米。显然此臺曝光机目前的分辨率就是65納米,而且无法透过双重曝光的手段进一步提升制程的分辨率。 再往前的路,除了前面所述在物镜的数值孔径需持续提升之外,另外还需要往浸润式(immersion)方向移动,利用水的折射率(refractive index)1.44较真空的折射率1为大的因素,提高曝光机的整机分辨率,这样才可能达到28納米的分辨率。至于像FinFET这样的精密元件,部分制程就要动用到双重乃至于多重曝光。浸润式曝光机使用新机制以改变波长,自然要面临新的问题,譬如水的纯净度的控制以给水温均匀恒定的维持等。这个部分自然也有机构早已从事研发,譬如中国中科院长春光学精密机械与物理研究所正在开发的数值孔径为0.8的浸润式物镜;承担浸润式曝光机的光源攻关任务的是中国中科院光电院、微电子所孵化出来的科益虹源;电源模塊则是由中国中科院安徽光机所的团队承担开发任务。多梯次技术平行开发是可以想像的技术发展方式。 自2023年以来偶有上海微电子已开始交付其28納米浸润式DUV的新闻,机型为SSA/800-10W,叠加精度为1.9納米,最近一次的传闻为2025年1月7日交付。惟上海微电子公司产品目录无此型号,没有官方发布,亦无可靠媒体报导。根据其型号中的10W字样,此机型最多为原型机,因为其光源能量不足,无法支撑量产所需之吞吐量(throughput)。这条工信部指导目录的消息没有公司送原型机(prototype)到晶圆厂用在線制程调适机臺的后续报导,所以出货与否未可知;而且从原型机到量产机,总是要有好些时日。 至于前一代的90納米 DUV机臺已自2022年交付过几臺,初期主要的问题是系统不够稳定、down time太长、因光源功率不足(20W)致使设备吞吐量太低。所以,这条新闻对于中国积极发展曝光机国产替代的意义要重于先进技术的实际突围。
DRAM 制程发展方向:3D DRAM
从20納米以后,DRAM制程开始龟速前行。从19納米到11納米之间,以每次1~2納米的速度进展,跌跌撞撞地经历1x、1y、1z、1a、1b、1c以及未来的1d,共计7个制程。虽然现在仍使用平面(planar)DRAM制程,却早已经大幅的利用与晶圆垂直的第三维度,使得DRAM在效能、功率上,还能有实质的提升;在芯片的密度上进展比较迟缓,看来有点鸡肋,但是对于有些应用—譬如高频寛存儲器(HBM),稍为提升密度还是有实际用处的。要达到HBM每个時代的存儲器容量标准,只有特定的制程時代有能力提高到如此高容量的存儲器芯片。但是在每位元成本方面,制程的推进因为制程变得复杂,对于降低位元成本已毫无贡献。以三星电子(Samsung Electronics)现在的1b制程为例,就使用5层EUV,因而所费不赀。DRAM市场短期内不会平白消失,但是如果其制程推进还是继续如此缓慢,仍然会逐渐失去其高科技产业的特性;高科技产业之所以能获取高额的利润,是因为其科技的快速推进可以重复运作。现在DRAM制程的缓慢推进、乃至于停滞是DRAM业者共同的梦靥。10納米以下,目前各DRAM业者共同的技术推进方向大致是3D DRAM,只有三星会在1d制程之后试图导入垂直通道晶體管(Vertical Channel Transistor;VCT)。垂直通道晶體管基本上是将晶圆上平面晶體管的结构竖著长,减少每存儲器单元的底部面积,从传统的6f2缩小为4f2,其中f(feature size)为半导体制程的特徴尺吋,譬如半金属间距(half metal pitch)。这样的制程推进,大概稍大于10納米级制程推进一个時代的效益,然而这只是一次性的方法—下一步可没另一个方向可以再利用了。最主要的是垂直通道晶體管与未来的3D DRAM制程完全不沾边,研发的努力只能使用一阵子。因此并不是所有DRAM公司都做此想。3D DRAM的引入第一个问题不是为何要引入3D制程,而是为什么到此时才引入3D制程?毕竟所有的DRAM大厂都有3D NAND的技术。当2013~2014年3D NAND技术开始被引入时,DRAM的制程也早已在25~20納米左右,即将进入龟速前进的10納米级制程年代。用已经成熟的3D制程技术来推进举步维艰的DRAM制程似乎是理所当然。问题还是出在DRAM的结构上。一个线路要能够用3D制程来制作,有几个先决的条件。首要的是线路要有高度的重复性,无疑的,存儲器的阵列是3D制程应用的首选。在此点上,DRAM是符合的。再来是各层存儲器之间要有可以共享的材料。以TCAT(Terabit Cell Array Transistor)3D NAND的技术为例,各层之间存儲器单元的闸极控制(gate control)材料复晶(polysilicon)以及电荷陷阱(charge trap;用来储存NAND信號的单元)材料氮化矽(silicon nitride)是可以在各层之间共享的,因此垂直方向的制程整合相对简单,32层的存儲器可以用4、5层光罩来完成。但是3D DRAM的结构就没有这么幸运,电容部分必须完全隔开以避免存儲器单元之间的信號交谈(cross talk);通道部分因为DRAM追求高机动性(high mobility),不能用在高宽高比深沟中的轻掺杂(light doped)复晶做半导体,各层存儲器之间可以共享的材料只有字线或位元线,端看3D DRAM是要求垂直制程的简化或面积的极小化。另外,DRAM效能远比NAND为高,所容许的信號延迟(latency)很低。各层存儲器之间因紧密相邻所产生的感应电容(induced capacitance)等效应都会降低DRAM的表现以及信號的协同,因此3D DRAM的确比3D NAND的工程问题要复杂得多,这也解释为何3D DRAM制程迟迟没有上路。无论如何,DRAM产业维持高科技产业特性除3D DRAM外已几乎没有前路,譬如以前在文献中经常被提及的无电容(capacitorless)DRAM,其數據保留时间(data retention time)远不能与目前的DRAM相比。2023年7月长鑫在IEEE的International Memory Workshop发表其对3D DRAM的规划,三星也在同年的Symposium on VLSI Technology and Circuits发表其3D DRAM的技术论文。可见关于3D DRAM的议题各公司早已准备很久,只是研发结果发表的时机及场合各有考量罢了。根据长鑫的设计,2D DRAM的电容—晶體管垂直堆叠的组合在3D DRAM中就被横摆著成为一层中的一个存儲器单元。长鑫模拟出来的存儲器单元有多大呢?横躺的电容约500納米、晶體管200納米,加上字线和位元线,一个存儲器单元横方向的尺度接近1微米。长鑫采取的制程是字线垂直到下边的接触平面,这个做法会让存儲器单元的面积稍大,但是垂直的整合制程会比较简单。在技术发展的初期,先做出来再做好是合理的策略。至于存儲器阵列旁的周边线路(peripheral circuits),师3D NAND的故智,会在另外的芯片上制造,然后用混合键合(hybrid bonding)与上层的单晶(monolithic)存儲器多层阵列封装在一起。字线和位元元线的金属间距都是70納米。用以前DRAM制程定义半金属间距来看,这个起始制程大概就是35納米节点,与3D NAND刚开始时的30~40納米制程相彷。这样的3D DRAM堆叠32层后,所得的存儲器容量与1b的2D制程相彷。堆叠64层后容量就与10納米以下第一時代制程0a相彷。这个堆叠是个可以重复的进展,DRAM的高科技产业属性因此得以维持。目前有发布大概推出时程的是三星,大概在2026~2028年之间,与2D平面制程会并存一阵子,这与3D NAND刚出来时的策略也相同。假设3D DRAM的确是可行的技术,有2点值得评论。第一个是高帶寬存儲器是否会沿著目前的方法向前推进?目前的HBM是多个DRAM芯片以先进封装堆叠以达到较大容量,其中先进封装的费用占总成本的相当部分。如果存儲器容量可以用单晶的3D制程来增加,成本有可能降低。但是这是比较长远的事。另外一个议题有关于地缘政治。长鑫在其文章中说是业界第一次揭露3D DRAM技术,其实业界各自默默研发都很久了,但是长鑫对于3D DRAM的应用可能会特别有感。一方面目前长鑫的制程大概在1z节点,与领先公司有2、3代的差距。开始采用3D DRAM制程,可以快速拉进距离,毕竟那是一个新战场。最重要的是3D制程中,技术的重心将从光刻搬移至蚀刻,这是长鑫在EUV资源受制约的状况下,最可能的突破口。所以各公司3D DRAM制程的实际发展状况和开发能力外界也许看不清楚,但是长鑫比较有可能投入较多资源是合理的预期。
DRAM 制程发展方向:DRAM结构在制程微缩中的挑战
DRAM在1970年问世,取代以前的磁芯(magnetic core)存儲器,成为计算机冯诺伊曼架构中的一个重要模塊。在1984~1985年之间,因为个人电脑及工作站的兴起,DRAM变成半导体市场中市占最大的单一产品。 因为DRAM制程的进展直接决定存儲器容量,以及DRAM有较大的市占,有能力累积足够的资金以投入下時代的制程研发,DRAM自问世以后就成为摩尔定律主要技术推手(technology driver)。肇因如此,自1980年代后陆续投入半导体产业的日本,以及其后的韓國、臺湾,许多公司都选择投入DRAM此一次产业,因为这代表投入半导体产业中最先进的制程。 但是DRAM的制程领先地位在2000年初不久之后首先被NAND超越,之后逻辑制程又超越NAND,成为半导体制程技术的驱动者。 DRAM开始偏离摩尔定律并不是之前促使DRAM成为技术驱动者的因素消失了。事实上,到2024年为止,存儲器仍稳占半导体市场的4分之1左右,而是DRAM的基本结构在20納米以下遇到尖锐的挑战。 DRAM的存儲器单元(unit cell)结构为1T1C,亦即一个读取晶體管(access transistor)和一个电容。选电容当成信息储存单元天经地义-电容是电路三元件电阻、电感、电容中的一员。 电容上电荷的有、无代表信息的「1」和「0」,需要读、写电容上的信息时,就开启读写晶體管。基础物理教育告诉我们电容上的电荷,即使维持电容两边平行电板(parallel plate)的电压差不变,电荷也会随著时间逐渐流失。电荷流失的速度与两片平行电板之间的距离成反比,与平行电板的面积以及在平行电板之间物质的介电常数(dielectric constant)成正比。因为电容上的电荷会随时间流失,所以电容上的信息必须经常更新(refresh),目前DRAM中的信息刷新时间为64ms。 为了要控制个别的记忆单元,每一个单元的晶體管的闸极(gate)连有字线(word line),施加电压后可以让晶體管处于开启状态,可以用来执行读、写或更新的操作;位元线(bit line)则连接晶體管的汲极(drain),将自电容通过已开启晶體管的电荷送到傳感放大器(sense amplifier)侦测0或1的信號。如棋盘线交错的字线和位元线可以准确定位一存儲器单元,让周边线路挑选以读写其中信息。以上就是DRAM运作的大概架构。 DRAM制程持续推进的挑战,也正源自于这1T1C的架构。制程微缩的方向,与DRAM使用的晶體管以及电容所需的物理特性是朝反方向走! 首先遇到的是电容值的问题,2000年左右的电容值必须保持在40fF(femto Farad)左右,那时的电容已开始利用芯片上的垂直方向此一维度,电容要嘛挖成深沟(trench)状,放在晶體管旁的下方;要嘛堆垒成圆柱状(cylinder or pillar),置于晶體管上方,也就是利用垂直于芯片的方向面积的延伸来增加电容的面积。 但是制程的微缩会让圆柱的底部缩小,电容的面积因而减少,电容值也会随之降低,所以必须增加电容的高度,以增加电容的面积,借以维持电容值在一定的数值以上。以10納米级别制程为例,电容值必须维持在10~20fF以上。 但是减少圆柱底部面积、增加圆柱高度,就是增加圆柱的宽高比(aspect ratio),这会造成蚀刻制程的难度,圆柱底部较尖锐的形状也会造成新的电性问题,所以宽高比就停留在1:50,难以再推进。 至于晶體管,存儲器的与逻辑线路的注重不同的特性。逻辑晶體管注重效能(performance),也注重漏电流(leakage current)及其它特性;DRAM晶體管首重漏电流,因为这对电容保存信息的能力是致命。 晶體管存在漏电流的原因之一是栅极感应汲极泄漏(Gate Induced Drain Leakage;GIDL),指的是在栅极的位势(potential)高于汲极的位势时,即使晶體管处于关的状态,电流仍然会从汲极泄漏流向衬底(substrate)。 这个问题是历年来DRAM制程推进都要面对的问题,而且愈来愈严苛。 DRAM近年应对这个问题的措施包含在晶體管结构的变更,包括凹槽式通道阵列晶體管(Recess Channel Array Transistor;RCAT)、鞍鳍晶體管(saddle-fin transistor)、具有闸极工作功能控制(gate work function control)的埋栅(buried gate)晶體管等结构。 但是制程微缩也是朝不利于漏电流控制的方向移动。由于晶體管通道变短,于其上的闸极对于通道上的电流操控能力变弱,这就是短通道效应(short channel effect)。漏电流的降低也高度挑战制程研发。
鉴往知来:packet(互聯網)vs. token(大语言模型)
从信息技术演进的历程来看,过去数十年来互聯網(Internet)的核心传输单位—封包(packet),与现今AI时代的大型语言模型(LLM)生成单位—语意单元(token),在基础设施、商业模式发展上呈现出明显相似性。透过回顾packet的发展路径,我们可以摸著石头过河,描绘出token相关技术的潜在演进轨迹,并预判其在产品形态、服务模式与产业价值链上的可能样貌。何谓封包(packet)?封包是互聯網數據传输的最小「信息单位」。所有透过網絡传输的信息(不管是信件、语音、甚至影片串流)都被拆解为多个封包,每个封包内含传输信息等重要信息,确保數據在庞大复杂的互聯網中,正确无误地抵达目的地。过去数十年,網絡基础设施的投资便是围绕封包品质的确保(如错误重传机制)、提升传输效率(如帶寬升级、數據压缩),以及整体系统吞吐量(throughput)的扩展而展开。正是如此,过去三十年来,我们才有日益丰富的網絡服务,如信息沟通、电子商务、社群媒体、影音娱乐等。而在LLM中,token则成为关键「智能单位」。语言模型在处理自然语言时,将一段文字信息拆解成多个token,每个token代表不同的语意片段,经由模型运算后再组合(生成)为有意义的内容。与封包相似,token的数量和生成效率直接影响运算成本以及使用者体验。例如,过去3年AI运算基础建设投资的大幅增长,就是为了确保LLM模型的能力(token品质)以及服务品质(token生成效率),甚至近期边缘装置上token处理能力的提升,也正逐渐颠覆AI应用的场域边界,向更多元、實時且全新的场域扩张。单看过去三十几年互聯網packet的发展,我们发现token也在走类似的进程。不管是基础建设,或是3个技术优化方向,包括「品质保障」、「效率提升」,以及整体「系统吞吐量的扩展」。品质保障:網絡早期透过TCP/IP协定来确保封包传输的正确性,而LLM则透过scaling law加大模型、使用更多训练數據,甚至后来以思维链(Chain-of-Thought;CoT)为基础的推理技术,确保生成的token内容正确且提供高品质推理服务。效率提升:随著帶寬提升和數據压缩等技术的成熟,封包传输成本大幅降低;同样地,token处理成本亦透过模型蒸馏(distillation)、量化(quantization,使用较少位元表示数值)、KV Cache等张量(tensor)降维压缩,或是使用更有效率的架构(如MoE)来降低运算量,甚至有机会使大模型有效地运行于终端装置。系统吞吐量扩展:过去互聯網透过光纤技术和提升边缘设备(交换器、路由器等)大幅提升數據传输量,或是使用内容传递網絡(CDN)等技术提高封包全局效益;在LLM领域,數據中心的垂直扩充(scale-up,提高算力、存儲器等提升单一服務器效能)与水平扩充(scale-out,高速網絡连结、排程提升分散式系统效能)、或是采用云端—边缘混合架构(Cloud-Edge-Hybrid)等,实现整体系统更高的token处理吞吐量,满足未来多元且實時的应用需求。循著过去互聯網发展的主轴,我们可以预见AI技术即将引爆的下一波变革—智能「去中心化」(普及化),低成本token开始在终端设备上运行。情境将如同2007年移動網絡兴起之际,packet进入移動設備,催生智能手機,也推动Uber、LINE等全新服务的诞生,引爆长达十数年的移動生态系蓬勃发展。互聯網数十年来最佳化packet传输技术,带动網絡服务的快速普及,特别在移動網絡时代,我们见证大量新应用与商业模式的诞生。这段历程也为观察生成式AI提供重要参照—当前token的品质提升与单位成本下降,正如当年packet优化所引发的技术扩张与资本投入,预示著新一波智能设备与创新应用的兴起。随著token处理成本持续降低,AI有望成为如網絡般的关键基础设施,深刻重塑产业结构。近来多个开放LLM模型在效能与成本上的突破,更强化LLM商品化与大规模应用的趋势。未来如何因应?过去的历史已经显明,在技术变革时,应以开放的态度,极力接近实际场域,理解技术应用发展方向,甚至与合作伙伴共同设计开发,参与组建生态系。更积极的作法,是投资(国际)学研单位,甚至新创团队,理解新的场域应用,以及技术演进。鉴往知来,回顾packet的发展经验(许多企业经营层也曾亲历其境),将使我们更有效地掌握token所带来的颠覆性机遇。对信息电子产业的投资者与决策者而言,更是攸关未来竞争优势的关键课题。每一次产业典范的转移,总会带来新的硬件、服务、企业、生态系,甚至整个产业格局的兴起与殒落。当我们已清楚AI大模型即将重塑未来十年的产业样貌,或许网际(移動)網絡曾走过的历程,正可作为产业AI战略规划的重要借镜。
智能应用 影音