数周前NVIDIACEO黄仁勳在GTC 2024大会上发表新一代的GPU (B100/B200)。这B系列的GPU打破相当多纪录,首先这GPU是由2颗独立的芯片并排结合而成,采用台积电先进的4纳米N4P制程,而接合的方式是利用台积电CoWoS(chip on wafer on substrate)先进封装技术。每一个芯片内涵1,080亿个晶体管,这是首次单一芯片晶体管的数目超过1,000亿颗,2颗加总共有2,160亿颗。
1980年代我们在念半导体的时代,1个芯片所含晶体管的整合度,由SSI(small scale integration),到MSI、LSI以及最后的VLSI(very large scale integration)。VLSI所定义的单一芯片所含晶体管的数目,也不过是100万颗。现代的科技将这个数字推进10万倍。
我们都知道GPU的算力跟晶体管的数目是直接相关,要增加晶体管的数目,一则是利用微影技术缩小晶体管的尺寸,另一则则是增大芯片的面积。就增大面积而言,在NVIDIA B系列前三代的GPU(H / A / V系列),芯片的面积就已经超过800平方厘米,将近3厘米的平方。事实上这芯片面积,包括B系列在内,已经是12寸晶圆的极限,若继续扩大芯片的面积,良率及在1片晶圆所能产生的芯片数目,都会受到很大的影响。
在无法继续增加芯片面积的限制下,将2颗芯片利用先进的封装技术,紧密并排在一起,如同1颗大的芯片,将会是未来的常态。苹果(Apple)M1 Ultra处理器,就是由2颗M1芯片并排组合而成。
吊诡的是,这回B系列GPU使用的是台积电进阶版N4P制程,与前一代H系的N4相比,根据台积电所公开的数据约是效能提升6%。然而,以单颗B系列的芯片为例,其晶体管的数目相较于H系列,增加约30% (1,080亿颗 vs 800亿颗)、功耗约略减少30%(500瓦 vs 700瓦),换言之,效能提升将近50%。
除非NVIDIA在B系列的GPU设计架构上,做了重大突破,否则很难想像这50%的效能改善是从何而来?
个人认为很大的改善在于,这2个芯片中的数据传输的损耗大幅下降。2个芯片中所传输的数据量是10TB/s,也就是每秒传输10的13次方的数据量,而M1 Ultra的数据量却是2TB/s。紧密结合芯片中的数据传输所产生的功耗,是远小于数据由芯片传输到印刷电路板上,再到另一个芯片上。两者之间的功耗差距,除了距离长短之外,芯片与电路板间的阻抗不匹配,都会造成传输上的损耗。
换言之,在不断需要提升算力的同时,利用先进封装将几颗运算芯片,紧密地结合在一起,未来将会是一个关键。如同利用矽光子及CPO(co-package optics)技术,将数据中心的交换器,大幅地减少其功耗及增加传输数据,是相同的道理。
算力除了跟芯片效能有很大的关系外,也跟计算机的架构有关。
我们以人工智能运算及量子运算为例,最古典的运算如附图(A)所示。运算犹如一排车阵中,靠时序的控制(sequential control),一部车启动后接着另一部,到最后一道指令,才完成整个车阵的纾解。然而在AI的运算中如附图(B)所示,使用大量平行运算,1个GPU内部包含了数以千计的运算核心,因此算力远大于古典的运算,但基本上仍存在时序的控制。
量子运算就完全不同了,如附图(C)所示,在并排的车阵中利用量子的纠缠(entanglement),就宛如一张网络将所有的车子四面八方的圈住在一起,没有时序的控制,一声令下就全员移动,因此算力又远大于AI,相较之下所耗损的功率却少了很多。
然而要产生量子纠缠,必须要在极严苛的环境下产生,如超低温及超低杂讯,有太多不可控因素,所以时不时会有错误发生。个人浅见是,量子电脑很难成为一个商品化的产品,更谈不上可靠度及品质管理系统。最有可能是大型的研究机构或大公司的研发部门,拥有台量子电脑,而且每售出1部量子电脑,原厂就得要有一组工程及技术人员进驻该单位。
不可否认算力即国力,GPU/AI的算力在未来一段时间内,仍然会是主流。在算力不断地被要求提升之下,芯片的功耗及信号的传输量,会是瓶颈之所在。先进的封装技术如CoWoS,将会是各国所关注的焦点。
曾任中央大学电机系教授及系主任,后担任工研院电子光电所副所长及所长,2013年起投身产业界,曾担任汉民科技策略长、汉磊科技总经理及汉磊投资控股公司CEO。