鉴往知来:Apps(移動網絡)vs. Agents(大语言模型)
在前一文中,我们类比互聯網(Internet)以及现今大型语言模型(LLM)的发展轨迹,特别是互聯網的核心传输单位—封包(packet),LLM生成单位—语意单元(token),在基础设施、商业模式发展上呈现出明显相似性。透过回顾packet的发展路径,我们试著描绘出token驱动的AI未来发展轨迹,并预判在产品形态、服务模式与产业价值链上的可能样貌。另一可供借镜的历程,是应用程序(App)在移動網絡时代所引爆的创新与变革。如今,在LLM/LVM多模态大模型推动下,一个以「Agent」为核心的应用生态正逐步成形。延续上文,我们尝试从App的崛起历程,看见代理(Agent)以及边缘AI(Edge AI)未来的可能路径。2007年开始,移動App实现實時互动与高速數據交换,移動用户大量增加,源自于網絡封包传输成本逐步下降,智能手機的运算效能与续航力的进展。App Store的出现更将过去分散、复杂的网页互动模式,整合为图形化、易于操作的应用程序界面,大幅降低使用门槛,使數字服务真正「移動化」、「普及化」。App 不再只是单一功能工具,更透过推播、定位、社群整合等特性,深度嵌入使用者生活。这也带动「长尾效应」—不仅少数爆红应用,而是无数利基型App满足多元、个人化的需求。这场从网页到App的转变,不只是界面革新,更兴起全新App驱动的生态系,翻转整个數字服务的生产与分配模式,也同时快速推升移動設備的需求(2017年达到高峰)。App Store 建构出一套双边市场机制,一端连结开发者创新、另一端连结全球使用者,使原本无法规模化的服务得以商品化、在地化与全球化。过去崭露头角的數字服务如Uber、LINE、Instagram皆倚赖App生态兴起,而App的爆发也带动芯片、傳感器、模塊、电池、存儲器等硬件需求,重塑移動設備供应链结构,并促成新兴品牌与 ODM/OEM 的崛起。Statista统计显示,全球App下载量自2010年的60亿次,成长至2023年的1,430亿次,反映出App模式背后强大的规模经济与網絡效应。臺湾厂商在这波移動化浪潮中,从晶圆代工、封装测试到系统整合与 App 开发皆深度参与,建立完整供应链与生态網絡。这段历程不仅重塑移動产业结构,也为即将兴起的AI代理(AI Agent)模式提供宝贵借镜——当使用者界面再次从App进化为Agent,我们是否能抢先洞察使用需求、运算架构、标准制定与硬件整合的关键优势?如果App是移動網絡时代的使用界面,那么由大模型LLM/LVM驱动的Agent,可能是 AI 时代的核心入口。Agent不仅理解自然语言(及各种傳感信號),还得具备任务规划与执行能力,从单纯对话升级为數字助理。透过多模态推理与工具链结,Agent的应用场景正快速扩展至自动化工作流程、专业咨询、教育训练与知识辅助等领域。未来极可能出现类似「Agent Store」的新型生态系,就如当年App Store一样,汇集多样化、可重组的智能模塊,满足多样性需求。这将加速硬件与軟件的分工整合,促进各种垂直应用场域(如工业、医疗、中小企业、消费者市场)中智能代理的落地机会。随著近来高效率推理模型的快速演进,以及LLM开源生态的蓬勃发展,更进一步推进这样的可能性。同时,终端市场的实际需求也正在浮现,如中小企业的知识管理、自动化应用,以及工控领域中實時推理能力的渴望,也回应了市场的需要。终端装置的硬件规格,也逐渐具备支撑Agent所需的AI算力与存儲器条件。随著LLM开源社群快速演进,如13B等级模型已能在一般移動設備上顺利推理,token生成速度亦逐步接近应用需要,Edge AI的落地门槛正快速降低。根据预测,Edge AI芯片市场将自2023年的24亿美元,成长至2033年的252亿美元,年复合成长率高达26.5%。各大系统与芯片业者也已积极布局AI手机、车用SoC与AI PC平臺。未来,Agent将可自然地嵌入手机、筆記本電腦、AR眼镜、TWS耳机、机器人等多元终端装置,成为新一代语言互动与任务导向操作的使用界面。当然,Agent技术的普及仍面临诸多挑战,除了使用者數據的授权与使用,日益增强的自主性也带来安全、隐私、监管与伦理等层面的高度关注,技术本身的复杂度亦不容小觑。然而巧合的是,这些挑战与机会的交织,恰如2007年移動網絡时代初启时的情境—从应用模式、生态系到硬件需求与供应链架构,皆酝酿著重塑的可能。Agent的发展,正释出一种熟悉而微妙的信號,预告另一波产业典范转移的起点。
一个人武林的美丽与哀愁:论臺积电的先进制程与封装
从年初的CES 2025,3月的NVIDIA GTC,到4月臺积电在北美的技术论坛,以及即将登场的COMPUTEX,这几场科技大秀,在在显示AI服務器的发展与半导体先进制程及封装技术,有著不可分割的紧密关系。几年前NVIDIACEO黄仁勋在媒体上说过几次「摩尔定律已死」。当时我不太理解其中的涵义,直到最近读完Stephen Witt所著《黄仁勋传》(The Thinking Machine: Jensen Huang, Nvidia, and the World’s Most Coveted Microchip),才了解到个中道理。书中谈论到由2012年到2022年,GPU运算能力增加10,00倍,其中属于硬件的晶體管速度(clock rate)只增加2.5倍,换言之剩余的400倍来自軟件程序及数学公式。400倍相对于2.5倍,自然会说摩尔定律已死,更何况NVIDIA在黄仁勋眼中一直是家軟件的公司。但是事实真的如此吗?如果以NVIDIA GPU从2012年的Kepler到2022年Hopper GPU,制程技术由28納米演进到4納米,晶體管数目由71亿颗,一口气增加到800亿颗;运算的单元CUDA core也从不到3000个,扩充到将近15,000个核心。虽然晶體管的速度仅增加2.5倍,但是由於单一芯片的运算核心的数目增加了,算力自然就大幅的提升。如果再加上CoWoS及3DIC的先进封装技术,不仅将多个存儲器芯片(HBM)垂直堆叠在一起,而CoWoS技术更将GPU与存儲器芯片,能紧密地在水平方向摆放在一起。这些先进的封装工艺,最重要的就是希望數字信號这这些芯片中传输,能够走最短的路径。这样一来不仅信號传输的延迟可以缩短,功耗亦可以降低,算力自然就提升了。Blackwell GPU已经利用CoWoS技术,将2个GPU芯片无缝接轨地绑在一块,下一代Rubin GPU将会扩充到4个GPU芯片连接一起。臺积电更提出在2027年实现SoW(system on wafer)。也就是在硅片上或其他形式的基板上,水平放置更多的GPU,甚至开始做GPU的堆叠。这些先进制程及封装上的努力,无非是把更多的运算单元,及暂存的记忆數據,在很小的空间内完成执行,以增强其运算效能。依据此原则,同样的在服務器机柜的设计,也是希望在一个机柜内放置更多的GPU。因此GB系列一个机柜内有72颗GPU,到了下一代Rubin会有144颗GPU,而Rubin Ultra更在一个机柜内放置多达576颗GPU。机柜的设计也由原先水平摆放的tray盘,改为直立式的插槽,以增加GPU密度。这一切硬件上的努力,无非是要提升整体的运算效能,但也衍伸出电源的供应及如何散热的问题。GB服務器系列一个机柜所需的功率在120~150KW,Rubin Ultra将会达到600 KW~1MW。若是一个数据中心拥有500个Rubin Ultra机柜,那就约略等于一个核子反应炉所产出的电力。届时Rubin Ultra的散热,恐怕只有浸润式的液冷一途了。臺积电在4月的北美技术论坛,在先进封装领域著墨甚多。除了SoW、矽光子、3DIC之外,更规划在电源最后一级的转换IVR(integrated voltage regulator),嵌入至CoWoS内的中介层(interposer)。所以在先进制程上,臺积电已经是一个人的武林,不久的将来在先进封装领域,臺积电会是另一个一个人的武林。一个人的武林所衍生出来的就是,如影随行的反托拉斯法(antitrust)。为了淡化臺积电在先进制程的主宰地位,董事长魏哲家曾建议将先进封装也纳入半导体的范畴,借由分母的扩大以降低百分比率。然而目前实际上的发展,恐未能如其所愿。英特尔(Intel)之前为了解决CPU市场独占的问题,不仅付给超微(AMD)一笔和解金,并技巧地让超微成为有实力的竞争者。先进封装相较于先进制程,可以有较多的可行解决方案,群策群力,不必然是一个人的武林。美丽与哀愁,端视我们的态度与做法。
中国曝光机发展现况:EUV
中国工信部宣布DUV信息的同时,上海微电子也发布其2023年申请的EUV专利、2024年9月专利申请公开的消息。延伸报导专家讲堂:中国曝光机发展现况:DUV上海微电子的EUV使用的也是现在商业主流的二氧化碳(CO2)雷射,波长为10.6納米。钖的液滴(droplet)先用钕钇铝石榴石雷射(Nd:YAG laser)打成圆盘状后,再被CO2雷射离子化(ionized)变成钖电浆(plasma),然后其外层电子向低能量态跃迁(transition),释出波长约为13.5納米的光子。之所以要用如此复杂的工序来产生EUV光源,是因为在此波长没有自然的物质的能阶差可以产生如此短的波长。选择13.5納米是因为波长再短一些,就变成X光(0.01納米~10納米)。EUV也很可能是矽基半导体技术的最后一种光源。矽的共价键(covalent bond)长度为0.543納米,而要形成一个块材,至少也要有10几20个原子,否则界面的效应就会严重影响电子于其中的行径。13.5納米光的分辨率以及应有的工程努力如加大数值孔径等—最多再加上多重曝光—要处理这样的临界尺吋尽够用了。所以上海微电子的专利的权利请求(patent claim)主要在光源之外的系统。至于原型机或量产机型的交付,没有官方宣布或较正规新闻。2024年12月30日哈尔滨工业大学因「放电等离子体极紫外光刻光源」工作获得中国黑龙江省的科技创新成果转化大赛的一等奖。这奖只是地方奖项,能引起后续新闻报导自然是因为它牵涉到EUV的光源产生。它产生光源的方式与前述的以CO2雷射来离子化圆盘钖滴粒,借以产生13.5納米光源的工作方式—雷射产生电浆(Laser-Produced Plasma;LPP)不同,它是施加高电压借以离子化钖滴粒产生13.5納米光源,此种方法称放电产生电浆(Discharge-Produced Plasma;DPP)。报导中说它产生的线宽较窄(narrow linewidth)—也就是所有光的波长较集中于13.5納米、功耗较低。二者说法都有误导之嫌。LPP与DPP产生的EUV光都不是相干的(coherent)。如果硬要比较的话,LPP产生的光线宽较窄,但二者均可以经滤光器(filter)将线宽控制在可接受范围内。而DPP的原始功耗较低,恰恰好成为当初与LPP竞争成为EUV光源候选人时未能雀屏中选的主要原因。在相同的能源转换效率(energy conversion efficiency)条件下,光源较高的功率输出代表较强的光亮度(light luminosity),可以用较短的时间完成曝光,提高曝光机吞吐量。DPP EUV能量的提升(scale up)较为困难,因此用来当量产机臺的光源挑战也更大。最后是在2025年3月在《中国激光》期刊上中国中科院上海光学精密机械研究所由林楠领导团队所发表的〈1um激光激发固体Sn靶等离子体EUV幅射特性实验研究〉。林楠曾服务于ASML光源团队,对此题目的产业商业化考虑应该十分熟悉。文章中的1微米固态雷射(solid state laser)使用的就是前述用来将钖滴粒打成盘状的Nd:YAG雷射。固态雷射由于其体积较紧致(compact)、电光转换效率(electrical-to-optical conversion rate)较高(~20%),而且目前输出功率已达千瓦级,未来可能可以提升至万瓦级,有望取代CO2雷射,成为驱动EUV的主要雷射。文中指实验的能量转换效率已达3.42%,若用已商业化的1kW固态雷射,已可来做曝光验证、光罩检测(mask inspection)等工作,并且在一定条件下,进一步用于先进节点的临界尺度以及疉加精度的量测。也就是说,这是一个未来EUV机臺的研究起始点。产业此时的现实考虑是从CO2雷射波长10.6微米转换成Nd:YAG雷射波长1微米对于光源次系统是一个全新的转换,所有的工程工作必须重新来过,而且CO2雷射用于LPP EUV商业化已久,目前的成本远低固态雷射的。所以这个工作更倾向于对未来可能发展方向的研究准备,对于目前的先进制程的突破,短期间内是使不上力的。近期的这些报导距离真正的工程实施都有相当的距离,进步也比较片面。一个EUV曝光机包括EUV光源、光学系统、真空系统、光罩版臺及夹具(reticle stage and clamping)、晶圆臺(wafer stage)、热管理(thermal management)、计量和傳感器(metrology and sensors)、控制电子设备(control electronics)以及軟件及韧体(firmware),大大小小的零组件计100,000个以上,其中很多零件是专为EUV机臺量身定制的。建立此一庞大、复杂、精确的供应链队伍的难度,可能更甚于对单一技术课题的突破,我认为这是中国在发展自有曝光机的最大挑战。
中国曝光机发展现况:DUV
在中美贸易战中,美方施力的重点在于箝制中国高科技的发展的进程,特别是半导体、人工智能和量子计算,而前二者息息相关。 在半导体方面,美国的管制近乎遍及全产业链,从设计工具(EDA)、产品、制程设备乃于材料的禁运,中国自然是以国产替代以提高自给率,这也是涵盖全产业链的回应。 中国在半导体设备领域的弱点包括电子束测试机(e-beam tester)、离子植入机(ion implanter)和曝光机(lithography equipment)。 电子束测试机是量测机臺,基本上是用来侦测除错,不是制造过程的一部分。离子植入机—特别是高能量(~1MeV)的,对于高压碳化矽(SiC)MOSFET的制程至关重要。现在的电动汽车电压已早从600V迈向800V、1200V。没有高能量离子植入机无法制作车规高压功率元件,对于中国电子产业的零件自制率影响巨大。 最令人关注的自然是曝光机(lithography equipment)。曝光机的能力代表先进制程的终极分辨率(resolution),又与先进技术节点(technology node)直接相关。先进制程的主要应用之一是与算力高度相关的各式XPU,特别是专注于人工智能应用的GPU;另一个应用也是在人工智能芯片架构中的高帶寬存儲器(High Bandwidth Memory;HBM)。 从2024年9月起,中国就陆陆续续的传出各式曝光机进展的相关消息,对于全世界的半导体产业,这自然是头等的新闻焦点。 首先是中国工信部指导目录中的DUV曝光机,在2024年9月公布。 本质上,这就是一臺干式的DUV曝光机,光源是氟化氩(ArF)的准分子(excimer)雷射,氟化氩雷射波长为193納米 。 此曝光机的分辨率为65納米,如果假设系统中其他性质都已达最佳化,则其物镜(objective lens;系统中用于收集光线、用以呈像的主要透镜)的数值孔径(NA,愈大分辨率愈好)推算起来大概是0.75。如果要进一步改善分辨率,还要经过另一阵子的努力以达目前产业前沿水准0.93的数值孔径。也就是说,在光学系统的发展目前还处于较早期阶段。 至于其叠加精度(overlay accuracy;上下层图案的对齐精度)为8納米。要能产生65納米临界尺吋(Critical Dimension;CD)的制程,上下层的疉加精度要达临界尺度的20%左右,也就是13納米。如果要做双重曝光(double exposure),则叠加精度必须提高到13/2納米=6.5納米。显然此臺曝光机目前的分辨率就是65納米,而且无法透过双重曝光的手段进一步提升制程的分辨率。 再往前的路,除了前面所述在物镜的数值孔径需持续提升之外,另外还需要往浸润式(immersion)方向移动,利用水的折射率(refractive index)1.44较真空的折射率1为大的因素,提高曝光机的整机分辨率,这样才可能达到28納米的分辨率。至于像FinFET这样的精密元件,部分制程就要动用到双重乃至于多重曝光。浸润式曝光机使用新机制以改变波长,自然要面临新的问题,譬如水的纯净度的控制以给水温均匀恒定的维持等。这个部分自然也有机构早已从事研发,譬如中国中科院长春光学精密机械与物理研究所正在开发的数值孔径为0.8的浸润式物镜;承担浸润式曝光机的光源攻关任务的是中国中科院光电院、微电子所孵化出来的科益虹源;电源模塊则是由中国中科院安徽光机所的团队承担开发任务。多梯次技术平行开发是可以想像的技术发展方式。 自2023年以来偶有上海微电子已开始交付其28納米浸润式DUV的新闻,机型为SSA/800-10W,叠加精度为1.9納米,最近一次的传闻为2025年1月7日交付。惟上海微电子公司产品目录无此型号,没有官方发布,亦无可靠媒体报导。根据其型号中的10W字样,此机型最多为原型机,因为其光源能量不足,无法支撑量产所需之吞吐量(throughput)。这条工信部指导目录的消息没有公司送原型机(prototype)到晶圆厂用在線制程调适机臺的后续报导,所以出货与否未可知;而且从原型机到量产机,总是要有好些时日。 至于前一代的90納米 DUV机臺已自2022年交付过几臺,初期主要的问题是系统不够稳定、down time太长、因光源功率不足(20W)致使设备吞吐量太低。所以,这条新闻对于中国积极发展曝光机国产替代的意义要重于先进技术的实际突围。
DRAM 制程发展方向:3D DRAM
从20納米以后,DRAM制程开始龟速前行。从19納米到11納米之间,以每次1~2納米的速度进展,跌跌撞撞地经历1x、1y、1z、1a、1b、1c以及未来的1d,共计7个制程。虽然现在仍使用平面(planar)DRAM制程,却早已经大幅的利用与晶圆垂直的第三维度,使得DRAM在效能、功率上,还能有实质的提升;在芯片的密度上进展比较迟缓,看来有点鸡肋,但是对于有些应用—譬如高频寛存儲器(HBM),稍为提升密度还是有实际用处的。要达到HBM每个時代的存儲器容量标准,只有特定的制程時代有能力提高到如此高容量的存儲器芯片。但是在每位元成本方面,制程的推进因为制程变得复杂,对于降低位元成本已毫无贡献。以三星电子(Samsung Electronics)现在的1b制程为例,就使用5层EUV,因而所费不赀。DRAM市场短期内不会平白消失,但是如果其制程推进还是继续如此缓慢,仍然会逐渐失去其高科技产业的特性;高科技产业之所以能获取高额的利润,是因为其科技的快速推进可以重复运作。现在DRAM制程的缓慢推进、乃至于停滞是DRAM业者共同的梦靥。10納米以下,目前各DRAM业者共同的技术推进方向大致是3D DRAM,只有三星会在1d制程之后试图导入垂直通道晶體管(Vertical Channel Transistor;VCT)。垂直通道晶體管基本上是将晶圆上平面晶體管的结构竖著长,减少每存儲器单元的底部面积,从传统的6f2缩小为4f2,其中f(feature size)为半导体制程的特徴尺吋,譬如半金属间距(half metal pitch)。这样的制程推进,大概稍大于10納米级制程推进一个時代的效益,然而这只是一次性的方法—下一步可没另一个方向可以再利用了。最主要的是垂直通道晶體管与未来的3D DRAM制程完全不沾边,研发的努力只能使用一阵子。因此并不是所有DRAM公司都做此想。3D DRAM的引入第一个问题不是为何要引入3D制程,而是为什么到此时才引入3D制程?毕竟所有的DRAM大厂都有3D NAND的技术。当2013~2014年3D NAND技术开始被引入时,DRAM的制程也早已在25~20納米左右,即将进入龟速前进的10納米级制程年代。用已经成熟的3D制程技术来推进举步维艰的DRAM制程似乎是理所当然。问题还是出在DRAM的结构上。一个线路要能够用3D制程来制作,有几个先决的条件。首要的是线路要有高度的重复性,无疑的,存儲器的阵列是3D制程应用的首选。在此点上,DRAM是符合的。再来是各层存儲器之间要有可以共享的材料。以TCAT(Terabit Cell Array Transistor)3D NAND的技术为例,各层之间存儲器单元的闸极控制(gate control)材料复晶(polysilicon)以及电荷陷阱(charge trap;用来储存NAND信號的单元)材料氮化矽(silicon nitride)是可以在各层之间共享的,因此垂直方向的制程整合相对简单,32层的存儲器可以用4、5层光罩来完成。但是3D DRAM的结构就没有这么幸运,电容部分必须完全隔开以避免存儲器单元之间的信號交谈(cross talk);通道部分因为DRAM追求高机动性(high mobility),不能用在高宽高比深沟中的轻掺杂(light doped)复晶做半导体,各层存儲器之间可以共享的材料只有字线或位元线,端看3D DRAM是要求垂直制程的简化或面积的极小化。另外,DRAM效能远比NAND为高,所容许的信號延迟(latency)很低。各层存儲器之间因紧密相邻所产生的感应电容(induced capacitance)等效应都会降低DRAM的表现以及信號的协同,因此3D DRAM的确比3D NAND的工程问题要复杂得多,这也解释为何3D DRAM制程迟迟没有上路。无论如何,DRAM产业维持高科技产业特性除3D DRAM外已几乎没有前路,譬如以前在文献中经常被提及的无电容(capacitorless)DRAM,其數據保留时间(data retention time)远不能与目前的DRAM相比。2023年7月长鑫在IEEE的International Memory Workshop发表其对3D DRAM的规划,三星也在同年的Symposium on VLSI Technology and Circuits发表其3D DRAM的技术论文。可见关于3D DRAM的议题各公司早已准备很久,只是研发结果发表的时机及场合各有考量罢了。根据长鑫的设计,2D DRAM的电容—晶體管垂直堆叠的组合在3D DRAM中就被横摆著成为一层中的一个存儲器单元。长鑫模拟出来的存儲器单元有多大呢?横躺的电容约500納米、晶體管200納米,加上字线和位元线,一个存儲器单元横方向的尺度接近1微米。长鑫采取的制程是字线垂直到下边的接触平面,这个做法会让存儲器单元的面积稍大,但是垂直的整合制程会比较简单。在技术发展的初期,先做出来再做好是合理的策略。至于存儲器阵列旁的周边线路(peripheral circuits),师3D NAND的故智,会在另外的芯片上制造,然后用混合键合(hybrid bonding)与上层的单晶(monolithic)存儲器多层阵列封装在一起。字线和位元元线的金属间距都是70納米。用以前DRAM制程定义半金属间距来看,这个起始制程大概就是35納米节点,与3D NAND刚开始时的30~40納米制程相彷。这样的3D DRAM堆叠32层后,所得的存儲器容量与1b的2D制程相彷。堆叠64层后容量就与10納米以下第一時代制程0a相彷。这个堆叠是个可以重复的进展,DRAM的高科技产业属性因此得以维持。目前有发布大概推出时程的是三星,大概在2026~2028年之间,与2D平面制程会并存一阵子,这与3D NAND刚出来时的策略也相同。假设3D DRAM的确是可行的技术,有2点值得评论。第一个是高帶寬存儲器是否会沿著目前的方法向前推进?目前的HBM是多个DRAM芯片以先进封装堆叠以达到较大容量,其中先进封装的费用占总成本的相当部分。如果存儲器容量可以用单晶的3D制程来增加,成本有可能降低。但是这是比较长远的事。另外一个议题有关于地缘政治。长鑫在其文章中说是业界第一次揭露3D DRAM技术,其实业界各自默默研发都很久了,但是长鑫对于3D DRAM的应用可能会特别有感。一方面目前长鑫的制程大概在1z节点,与领先公司有2、3代的差距。开始采用3D DRAM制程,可以快速拉进距离,毕竟那是一个新战场。最重要的是3D制程中,技术的重心将从光刻搬移至蚀刻,这是长鑫在EUV资源受制约的状况下,最可能的突破口。所以各公司3D DRAM制程的实际发展状况和开发能力外界也许看不清楚,但是长鑫比较有可能投入较多资源是合理的预期。
DRAM 制程发展方向:DRAM结构在制程微缩中的挑战
DRAM在1970年问世,取代以前的磁芯(magnetic core)存儲器,成为计算机冯诺伊曼架构中的一个重要模塊。在1984~1985年之间,因为个人电脑及工作站的兴起,DRAM变成半导体市场中市占最大的单一产品。 因为DRAM制程的进展直接决定存儲器容量,以及DRAM有较大的市占,有能力累积足够的资金以投入下時代的制程研发,DRAM自问世以后就成为摩尔定律主要技术推手(technology driver)。肇因如此,自1980年代后陆续投入半导体产业的日本,以及其后的韓國、臺湾,许多公司都选择投入DRAM此一次产业,因为这代表投入半导体产业中最先进的制程。 但是DRAM的制程领先地位在2000年初不久之后首先被NAND超越,之后逻辑制程又超越NAND,成为半导体制程技术的驱动者。 DRAM开始偏离摩尔定律并不是之前促使DRAM成为技术驱动者的因素消失了。事实上,到2024年为止,存儲器仍稳占半导体市场的4分之1左右,而是DRAM的基本结构在20納米以下遇到尖锐的挑战。 DRAM的存儲器单元(unit cell)结构为1T1C,亦即一个读取晶體管(access transistor)和一个电容。选电容当成信息储存单元天经地义-电容是电路三元件电阻、电感、电容中的一员。 电容上电荷的有、无代表信息的「1」和「0」,需要读、写电容上的信息时,就开启读写晶體管。基础物理教育告诉我们电容上的电荷,即使维持电容两边平行电板(parallel plate)的电压差不变,电荷也会随著时间逐渐流失。电荷流失的速度与两片平行电板之间的距离成反比,与平行电板的面积以及在平行电板之间物质的介电常数(dielectric constant)成正比。因为电容上的电荷会随时间流失,所以电容上的信息必须经常更新(refresh),目前DRAM中的信息刷新时间为64ms。 为了要控制个别的记忆单元,每一个单元的晶體管的闸极(gate)连有字线(word line),施加电压后可以让晶體管处于开启状态,可以用来执行读、写或更新的操作;位元线(bit line)则连接晶體管的汲极(drain),将自电容通过已开启晶體管的电荷送到傳感放大器(sense amplifier)侦测0或1的信號。如棋盘线交错的字线和位元线可以准确定位一存儲器单元,让周边线路挑选以读写其中信息。以上就是DRAM运作的大概架构。 DRAM制程持续推进的挑战,也正源自于这1T1C的架构。制程微缩的方向,与DRAM使用的晶體管以及电容所需的物理特性是朝反方向走! 首先遇到的是电容值的问题,2000年左右的电容值必须保持在40fF(femto Farad)左右,那时的电容已开始利用芯片上的垂直方向此一维度,电容要嘛挖成深沟(trench)状,放在晶體管旁的下方;要嘛堆垒成圆柱状(cylinder or pillar),置于晶體管上方,也就是利用垂直于芯片的方向面积的延伸来增加电容的面积。 但是制程的微缩会让圆柱的底部缩小,电容的面积因而减少,电容值也会随之降低,所以必须增加电容的高度,以增加电容的面积,借以维持电容值在一定的数值以上。以10納米级别制程为例,电容值必须维持在10~20fF以上。 但是减少圆柱底部面积、增加圆柱高度,就是增加圆柱的宽高比(aspect ratio),这会造成蚀刻制程的难度,圆柱底部较尖锐的形状也会造成新的电性问题,所以宽高比就停留在1:50,难以再推进。 至于晶體管,存儲器的与逻辑线路的注重不同的特性。逻辑晶體管注重效能(performance),也注重漏电流(leakage current)及其它特性;DRAM晶體管首重漏电流,因为这对电容保存信息的能力是致命。 晶體管存在漏电流的原因之一是栅极感应汲极泄漏(Gate Induced Drain Leakage;GIDL),指的是在栅极的位势(potential)高于汲极的位势时,即使晶體管处于关的状态,电流仍然会从汲极泄漏流向衬底(substrate)。 这个问题是历年来DRAM制程推进都要面对的问题,而且愈来愈严苛。 DRAM近年应对这个问题的措施包含在晶體管结构的变更,包括凹槽式通道阵列晶體管(Recess Channel Array Transistor;RCAT)、鞍鳍晶體管(saddle-fin transistor)、具有闸极工作功能控制(gate work function control)的埋栅(buried gate)晶體管等结构。 但是制程微缩也是朝不利于漏电流控制的方向移动。由于晶體管通道变短,于其上的闸极对于通道上的电流操控能力变弱,这就是短通道效应(short channel effect)。漏电流的降低也高度挑战制程研发。
鉴往知来:packet(互聯網)vs. token(大语言模型)
从信息技术演进的历程来看,过去数十年来互聯網(Internet)的核心传输单位—封包(packet),与现今AI时代的大型语言模型(LLM)生成单位—语意单元(token),在基础设施、商业模式发展上呈现出明显相似性。透过回顾packet的发展路径,我们可以摸著石头过河,描绘出token相关技术的潜在演进轨迹,并预判其在产品形态、服务模式与产业价值链上的可能样貌。何谓封包(packet)?封包是互聯網數據传输的最小「信息单位」。所有透过網絡传输的信息(不管是信件、语音、甚至影片串流)都被拆解为多个封包,每个封包内含传输信息等重要信息,确保數據在庞大复杂的互聯網中,正确无误地抵达目的地。过去数十年,網絡基础设施的投资便是围绕封包品质的确保(如错误重传机制)、提升传输效率(如帶寬升级、數據压缩),以及整体系统吞吐量(throughput)的扩展而展开。正是如此,过去三十年来,我们才有日益丰富的網絡服务,如信息沟通、电子商务、社群媒体、影音娱乐等。而在LLM中,token则成为关键「智能单位」。语言模型在处理自然语言时,将一段文字信息拆解成多个token,每个token代表不同的语意片段,经由模型运算后再组合(生成)为有意义的内容。与封包相似,token的数量和生成效率直接影响运算成本以及使用者体验。例如,过去3年AI运算基础建设投资的大幅增长,就是为了确保LLM模型的能力(token品质)以及服务品质(token生成效率),甚至近期边缘装置上token处理能力的提升,也正逐渐颠覆AI应用的场域边界,向更多元、實時且全新的场域扩张。单看过去三十几年互聯網packet的发展,我们发现token也在走类似的进程。不管是基础建设,或是3个技术优化方向,包括「品质保障」、「效率提升」,以及整体「系统吞吐量的扩展」。品质保障:網絡早期透过TCP/IP协定来确保封包传输的正确性,而LLM则透过scaling law加大模型、使用更多训练數據,甚至后来以思维链(Chain-of-Thought;CoT)为基础的推理技术,确保生成的token内容正确且提供高品质推理服务。效率提升:随著帶寬提升和數據压缩等技术的成熟,封包传输成本大幅降低;同样地,token处理成本亦透过模型蒸馏(distillation)、量化(quantization,使用较少位元表示数值)、KV Cache等张量(tensor)降维压缩,或是使用更有效率的架构(如MoE)来降低运算量,甚至有机会使大模型有效地运行于终端装置。系统吞吐量扩展:过去互聯網透过光纤技术和提升边缘设备(交换器、路由器等)大幅提升數據传输量,或是使用内容传递網絡(CDN)等技术提高封包全局效益;在LLM领域,數據中心的垂直扩充(scale-up,提高算力、存儲器等提升单一服務器效能)与水平扩充(scale-out,高速網絡连结、排程提升分散式系统效能)、或是采用云端—边缘混合架构(Cloud-Edge-Hybrid)等,实现整体系统更高的token处理吞吐量,满足未来多元且實時的应用需求。循著过去互聯網发展的主轴,我们可以预见AI技术即将引爆的下一波变革—智能「去中心化」(普及化),低成本token开始在终端设备上运行。情境将如同2007年移動網絡兴起之际,packet进入移動設備,催生智能手機,也推动Uber、LINE等全新服务的诞生,引爆长达十数年的移動生态系蓬勃发展。互聯網数十年来最佳化packet传输技术,带动網絡服务的快速普及,特别在移動網絡时代,我们见证大量新应用与商业模式的诞生。这段历程也为观察生成式AI提供重要参照—当前token的品质提升与单位成本下降,正如当年packet优化所引发的技术扩张与资本投入,预示著新一波智能设备与创新应用的兴起。随著token处理成本持续降低,AI有望成为如網絡般的关键基础设施,深刻重塑产业结构。近来多个开放LLM模型在效能与成本上的突破,更强化LLM商品化与大规模应用的趋势。未来如何因应?过去的历史已经显明,在技术变革时,应以开放的态度,极力接近实际场域,理解技术应用发展方向,甚至与合作伙伴共同设计开发,参与组建生态系。更积极的作法,是投资(国际)学研单位,甚至新创团队,理解新的场域应用,以及技术演进。鉴往知来,回顾packet的发展经验(许多企业经营层也曾亲历其境),将使我们更有效地掌握token所带来的颠覆性机遇。对信息电子产业的投资者与决策者而言,更是攸关未来竞争优势的关键课题。每一次产业典范的转移,总会带来新的硬件、服务、企业、生态系,甚至整个产业格局的兴起与殒落。当我们已清楚AI大模型即将重塑未来十年的产业样貌,或许网际(移動)網絡曾走过的历程,正可作为产业AI战略规划的重要借镜。
AI大语言模型无法驯服π
和一个人一生中相关的数字,都可以在圆周率的某一个位数找到。这是因为圆周率(π)是一个无理数,也就是说,它的十进制展开既不终止也不循环,并且其数字序列是随机的。尽管目前没有证据能证明圆周率的数字完全随机,数学家普遍认为圆周率的数字分布没有任何规律或模式,每个数字序列都有可能在某一位数中随机出现。这意味著,无论选择哪个数字组合,包括个人的生日、电话号码或重要年份等,理论上都能在圆周率的某个位置找到。这些数字可能会在圆周率的某个长段中出现一次或多次,具体位置由数字的随机分布决定。这种现象与数学中的均匀分布有关,这表示所有数字(0~9)在圆周率的各个位数上出现的机率理论上是相等的。因此,任何有限长度的数字组合都有可能出现在圆周率的某个位置。以最奇特方式运用圆周率的人,应属高德纳(Donald Ervin Knuth)。1969年时他开始发展一种计算机语言,让使用者能够以數字方式排版数学公式。接下来高德纳花十年功夫,设计一套论文排版系统TeX,并以圆周率来当开发版本编号,由TeX3开始,现在的版本是TeX 3.141592653。人类于四千年前就尝试找出π,但直到今日,我们仍然只是接近其实际数值。首次对π进行严格计算的,是西元前287至212年的希腊古数学家阿基米德Archimedes),他利用毕达哥拉斯定理计算内接于圆的正多边形与外接于圆的正多边形的面积,因为圆的实际面积必然介于这两者之间,因此这些多边形的面积提供了圆面积的上、下界。他明白这样只能得到π的近似值,而非其确切数值。透过这种方法,阿基米德推导出π介于3.1429与3.1408之间。2021年8月19日,瑞士格里松应用科技大学(University of Applied Sciences of the Grisons)计算出圆周率最精确的数值达62,831,853,071,796位数。有趣的是,神奇的AI大语言模型无法驯服π。我问7种大语言模型,却都给我不同答案。我询问和我相关的4个数字:「May I ask at which digit position 1026 appears in the digits of pi? 」结果每个LLM给我的答案都不同。过去的测试中,总会有几个LLM给出相同的答案,但这次完全没有共识。我先试GPT,得到答案6284。接著要求GPT自我验证:「What is the four-digit sequence starting at position 6284 in the digits of pi?」结果,得到的回复是7590,而非1026。我试Grok,得到的回复是1639,反向验证,也没得到1026,而是5807。我试Le Chat(Mistral.ai),得到的回复是176451,反向验证,得到3141。我试Qwen2.5-Max,得到的回复是39,反向验证,得到7169。我试DeepSeek,得到的回复是8580,反向验证,得到3099。我试Tulu 3,得到的回复是2480,反向验证,得到3282。我再试Gemini,得到的回复是175319,反向验证,他不告诉我答案,建议我找数学工具来算出。我最后试Claude,他不告诉我答案。这些大语言模型给错答案的原因是,它们试图自行编写程序来找答案,但程序未能正确运行。我询问Pi-Search页面,它回答说:「字串1026出现于位置14678。这个字串在π的前2亿位数字中出现20,130次。」这应该是正确答案。我的测试是在2025年2月24日。在告知GTP或Grok網絡上特定数学工具可给答案时,它们的确会认错,并依我建议,运用工具找到正确答案。随著大语言模型的进化,也许未来能在第一次询问时给出正确答案。
AI程序开发助理—Devin与Cursor
苹果(Apple)創始人Steve Jobs 曾说:「Everybody should learn to program a computer, because it teaches you how to think.」随著人工智能(AI)技术的快速发展,AI撰写程序的能力已逐渐变强,可增人类的能力。许多AI辅助工具开始进入軟件开发领域,帮助开发者提高效率、减少错误,甚至自动完成部分重复性任务。终极目标是协助一般人像电脑工程师一样,利用「 learn to program a computer」来达到「how to think」的理想。目前较为热门的2款AI程序开发助理是Devin和Cursor,它们各自具备不同的特点与优势,适合不同的使用情境。Devin由Cognition开发,主要定位为一个自主的AI开发助手,能够执行完整的軟件开发流程,甚至能够独立完成某些开发任务。它具备高度的自主决策能力,可以设定开发环境、重现错误并进行修复,甚至执行軟件测试,无需开发者过多干预。使用者与Devin主要透过对话界面进行互动,开发者可以像管理人类工程师一样,指派任务并监控其进度。此外,它在一个安全的沙盒环境内执行,内建开发工具,能够与不同的技术堆叠无缝整合。Devin最大的优势在于高自主性,能够有效地帮助开发者处理从程序码撰写到测试的完整开发流程,适合希望让 AI 执行较为独立开发工作的团队或个人。Cursor则是一款AI强化的程序码编辑器,设计理念与 Devin不同,主要专注于提供實時AI协助,而非完全独立执行开发任务。Cursor的AI代理能够理解开发者的指令,并透过推理与工具整合,执行程序开发相关的任务,减少开发者的负担。其 AI 代理基于Composer平臺运作,使其可以与各种开发工具无缝连接。此外,它允许开发者导入扩充功能、主题、快捷键等,使其保持与传统开发环境一致的使用体验。同时,它提供隐私模式,确保程序码不会被線上储存,并符合SOC 2安全标准,适合对程序码隐私有高度要求的开发者。Cursor更适合习惯使用传统编辑器的开发者,能够提供實時的AI协助,减少开发过程中的繁琐工作,提高编码效率。这两款工具在自主性、使用方式与环境整合方面存在明显差异。Devin具备高度自主性,能够独立执行完整开发任务,而Cursor则更专注于實時AI辅助,适合需要持续手动操作的开发者。如果需要AI独立完成开发流程,Devin是更好的选择。如果希望在程序码编辑器内获得 AI 协助,并维持熟悉的开发环境,Cursor 是更理想的选择。Devin和Cursor代表2种不同的 AI 助理设计理念Devin 偏向于自动化与自主开发,Cursor则著重于辅助开发者完成日常编码工作。最终的选择取决于开发者的需求——如果希望 AI 来执行完整的开发任务,Devin 更具优势;如果更需要一款能够提高编码效率的AI编辑器,Cursor会是更合适的选择。随著 AI 技术的不断进步,这两款工具也将持续发展,未来可能会带来更多令人期待的功能与应用。
伊莉莎白女王的虚实整合
2022年6月英国白金禧年(Platinum Jubilee)庆祝女王登基70周年活动中,伊莉莎白二世女王(Elizabeth II;1926~2022)的3D全像(Holography)被投射在金辉灿烂的皇家金马车(Gold State Coach)窗户上,这场景迅速吸引全球观众的目光,成为当天庆典的亮点之一。透过结合尖端科技与历史文物,这次盛事展现虚实整合(Cyber-Physical Integration)的非凡潜力。这项技术让历史融入现代生活,创新地连结过去与未来,为文化遗产的展示开启新篇章。虚实整合技术能實時监控、调整并优化现实世界的运作。这一技术已广泛应用于自动驾驶、智能城市与医疗等领域,而此次全像投影与金马车的结合,则将其创意应用拓展到文化与娱乐产业。女王3D影像投射于拥有260年历史的马车上,参与白金禧年游行,展现科技与历史的完美融合。伊莉莎白二世女王的3D影像取材自1953年女王26岁时加冕典礼的珍贵存档画面,经过數字化处理与分辨率提升后,这段影像得以在现代投影设备上清晰呈现。经由精密的投影技术,影像被准确映射到马车窗户上,营造出女王仿佛亲临现场的真实感。这种虚实结合的手法让观众仿佛回到1953年,见证女王加冕的历史时刻。金马车本身是一件艺术与工程的双重杰作。它于1762年完成,整体以鎏金木材制成,并饰有精美的天使、海神与狮子头雕刻,象征英国的国家力量与海上霸权。这辆马车长约7米、高约3.7米,重达4吨,由8匹马以步行速度拉动。马车内部同样豪华,以丝绸与天鹅绒装饰。这一历史文物多次经历修复,至今仍然完好,成为英国皇室的重要象征。将3D影像技术与拥有高度历史价值的金马车结合,是一项极具挑战性的技术工程。由于金马车的历史价值极高,工程师设计了非侵入性的安装方式,避免对文物造成损害。轻量化的投影设备被巧妙安装在马车内部及其周边,确保整体视觉效果不受干扰。为确保虚实完美融合,工程师需克服影像稳定性与同步性等技术难题。他们利用高精度追踪技术,确保影像与马车移动完美同步,并特别设计投影系统以降低窗户反光对影像品质的影响。这些技术突破为未来类似应用树立新标杆。伊莉莎白二世女王3D影像与金马车的结合,是虚实整合如何重新定义文化遗产的最佳例证。展望未来,虚实整合有望成为文化遗产保存与传承的核心技术。透过更多元的數字手段,历史文物可以超越地理与时间的限制,成为全球共享的资产。
智能应用 影音