高带宽存储器风云(一)进程技术的分野
高带宽存储器(High Bandwidth Memory;HBM)是具有高带宽的图形存储器(Graphic Memory),其主要的功用是支持高效能运算(High Performance Computing;HPC)或人工智能运算中与CPU/GPU联合执行高速的平行运算。 HBM由数个DRAM堆叠而成,每个DRAM中又由许多容量较小的存储器单元组成。大数量的小存储器单元以高带宽的I/O与多核的CPU/GPU相连接,当成平行算中使用的缓冲存储器。 HBM的统一标准由JEDEC于2013年公布,2015年SK海力士(SK Hynix)率先开始量产。 以最近的产品HBM3E为例,其容量可达36GB,DRAM的层数为8~12层(8hi or 12hi)。最重要的,其数据引线(data pin)数目为1024,代表它可以同时提供1,024个数据平行储存。为了实施如此高的数据引线,在堆叠DRAM与中介层(interposer)之间使用将近4,000个微凸块(micro bump),而其间距(pitch)相当紧密—55微米,这已经接近微凸块技术的密度极限。HBM在多层DRAM堆叠的底层中,还有一个逻辑制程的基底晶粒(base die)。DRAM层与层之间的信号由矽通孔(Through Silicon Via;TSV)连接。目前异质整合HBM与CPU/GPU使用的先进封装技术为CoWoS (Chip-on-Wafer-on-Substrate),是2.5D先进封装的一种。在此封装中,HBM与CPU/GPU置于同一平面上。其下有一个中介层(interposer),HBM与CPU/GPU金属垫(metal pad)中的信号透过与其黏着的微凸块、由中介层内的连线(interconnect)送到另一边的微凸块上,这就是目前存储器与逻辑芯片异质整合的工作架构。 当HBM要再进一步演化、扩大带宽,预计其DRAM堆叠的层数将从原先的8~12层,再成长成12~16层。其数据引脚数则自1,024成长至2,048。所需要的微凸块数目可能会超越以目前的封装方式所能提供的。未来的HBM要与其协作的逻辑芯片会以何种方式异质整合,即为目前产业界看法有分歧的地方。 要提供更高的带宽,目前看到的可能技术有2种:铜混合键合(copper-copper hybrid bonding)与矽光子(silicon photonics)。 铜混合键合的工作概念相当简单,基本上是将2个分别制造的晶圆上重分布层(Reditribution Layer;RDL)面相对的黏贴在一起—金属对金属、氧化物对氧化物。这样2个芯片之间的信息传递就不必像传统封装的方式:先将一个芯片上的信号用与金属垫(metal pad)连接的微凸块引出,再用金属连线将信号送到另一个芯片对应的微凸块上。 铜混合键合大幅缩短信号传送距离、降低相应功耗,也改善其他的物理性质譬如寄生电容(parasitic capacitance)以及电阻值。最重要的,它的金属垫间距(metal pad pitch)可以降到10微米以下,最近的学术文章已开发出400微米的金属垫间距。这个数据显示用铜混合键合能提供比用微凸块高1至2阶秩的带宽,对于HBM4的更高带宽的需求显然没有问题,而且还有再进化的空间。 矽光子的基础运作机制也很简单:用光子来替代电子,成为传递信息的主要载子。它的好处显而易见:光子的速度比电子快100倍,而且光子在光纤中或光通道中传导理论上不会发热,不像电子在金属中传导一定会产生焦耳热(joule heat)。这个事实的应用其实很早就开始实施了。数据库之间、数据库至家戸之间早就以光纤替代电缆,接下来的挑战是在同一封装中甚或同一芯片中使用光子传导信息此一机制,前者就是现在热议的共同封装光学元件(Co-Packaged Optics;CPO),而后者就是矽光子。 目前NPU、GPU元件都已进入CPO中试验并取得成功。这是CPU/GPU与HBM的整合方案之一。实施矽光子的异质整合方法有2种。一种是沿用前述的2.5D先进封装结构,将中介层的铜连线改变成矽光子的光通道。另外,由于利用光子来传递信息,CPU/GPU与HBM两头都要装上光/电的转换元件。这个方法产业比较熟悉,但是成本较高。另一种方法是把HBM置于封装之外,利用矽光子芯片线路与CPU/GPU连接。这个方法DRAM部分可以维持相当的独立性,但是开发可能需要较长的时间。 相对的,铜混合键合在近年来已渐趋成熟。除了CIS(CMOS Image Sensor)早已派上用途外,像超微(AMD)将CPU与SRAM分别制造后,再用铜混合键合异质整合在一个3D先进封装之中。这些都是此技术成功应用的范例。矽光子与铜混合键合就是现在产业界面临的技术方向抉择,这个抉择的后果影响既深且远。
2024/5/6