从年初的CES 2025,3月的NVIDIA GTC,到4月臺积电在北美的技术论坛,以及即将登场的COMPUTEX,这几场科技大秀,在在显示AI服務器的发展与半导体先进制程及封装技术,有著不可分割的紧密关系。
几年前NVIDIACEO黄仁勋在媒体上说过几次「摩尔定律已死」。当时我不太理解其中的涵义,直到最近读完Stephen Witt所著《黄仁勋传》(The Thinking Machine: Jensen Huang, Nvidia, and the World’s Most Coveted Microchip),才了解到个中道理。
书中谈论到由2012年到2022年,GPU运算能力增加10,00倍,其中属于硬件的晶體管速度(clock rate)只增加2.5倍,换言之剩余的400倍来自軟件程序及数学公式。400倍相对于2.5倍,自然会说摩尔定律已死,更何况NVIDIA在黄仁勋眼中一直是家軟件的公司。
但是事实真的如此吗?
如果以NVIDIA GPU从2012年的Kepler到2022年Hopper GPU,制程技术由28納米演进到4納米,晶體管数目由71亿颗,一口气增加到800亿颗;运算的单元CUDA core也从不到3000个,扩充到将近15,000个核心。
虽然晶體管的速度仅增加2.5倍,但是由於单一芯片的运算核心的数目增加了,算力自然就大幅的提升。
如果再加上CoWoS及3DIC的先进封装技术,不仅将多个存儲器芯片(HBM)垂直堆叠在一起,而CoWoS技术更将GPU与存儲器芯片,能紧密地在水平方向摆放在一起。这些先进的封装工艺,最重要的就是希望數字信號这这些芯片中传输,能够走最短的路径。这样一来不仅信號传输的延迟可以缩短,功耗亦可以降低,算力自然就提升了。Blackwell GPU已经利用CoWoS技术,将2个GPU芯片无缝接轨地绑在一块,下一代Rubin GPU将会扩充到4个GPU芯片连接一起。臺积电更提出在2027年实现SoW(system on wafer)。也就是在硅片上或其他形式的基板上,水平放置更多的GPU,甚至开始做GPU的堆叠。
这些先进制程及封装上的努力,无非是把更多的运算单元,及暂存的记忆數據,在很小的空间内完成执行,以增强其运算效能。依据此原则,同样的在服務器机柜的设计,也是希望在一个机柜内放置更多的GPU。因此GB系列一个机柜内有72颗GPU,到了下一代Rubin会有144颗GPU,而Rubin Ultra更在一个机柜内放置多达576颗GPU。机柜的设计也由原先水平摆放的tray盘,改为直立式的插槽,以增加GPU密度。这一切硬件上的努力,无非是要提升整体的运算效能,但也衍伸出电源的供应及如何散热的问题。
GB服務器系列一个机柜所需的功率在120~150KW,Rubin Ultra将会达到600 KW~1MW。若是一个数据中心拥有500个Rubin Ultra机柜,那就约略等于一个核子反应炉所产出的电力。届时Rubin Ultra的散热,恐怕只有浸润式的液冷一途了。
臺积电在4月的北美技术论坛,在先进封装领域著墨甚多。除了SoW、矽光子、3DIC之外,更规划在电源最后一级的转换IVR(integrated voltage regulator),嵌入至CoWoS内的中介层(interposer)。所以在先进制程上,臺积电已经是一个人的武林,不久的将来在先进封装领域,臺积电会是另一个一个人的武林。
一个人的武林所衍生出来的就是,如影随行的反托拉斯法(antitrust)。为了淡化臺积电在先进制程的主宰地位,董事长魏哲家曾建议将先进封装也纳入半导体的范畴,借由分母的扩大以降低百分比率。然而目前实际上的发展,恐未能如其所愿。
英特尔(Intel)之前为了解决CPU市场独占的问题,不仅付给超微(AMD)一笔和解金,并技巧地让超微成为有实力的竞争者。先进封装相较于先进制程,可以有较多的可行解决方案,群策群力,不必然是一个人的武林。美丽与哀愁,端视我们的态度与做法。