智能应用 影音
工研院
ST Microsite

存储器运算的可能趋势

新兴存储器在整合存储器体制已初露曙光,基本上是朝向统一存储器(united memories)的方向走,但都还有些距离。TDK

依据von Neumann架构,计算机中存储器和控制单元是分离的,这也是目前计算机及相关的半导体零件制造的指导方针。但是在目前海量数据的处理与储存上,这样的架构对数据的「读取—处理—储存」循环在数据传送速度、功耗上形成重大挑战。特别是存储器本身因写入速度、保留时间等的特性差异,从cache、DRAM、NAND等形成复杂层层相转的存储器体制(memory hierarchy),让数据的处理循环变得更长、更耗能。

当网络的带宽变大、人工智能(AI)应用对于大数据处理的需求日益提高,上述的问题益发严重。这个问题的解决有多个面向,也分短、中、长期的战术与战略。

短的来说,新兴存储器在整合存储器体制已初露曙光,基本上是朝向统一存储器(united memories)的方向走,但都还有些距离。PCM容量密度现在比较大,速度虽然比NAND快很多,但还是不如DRAM,存储器体制问题还残留,功耗也还是问题。RRAM的容量密度还没提上来,短期内只可能从NOR的替代切入。MRAM的速度较快,赶上DRAM了,但速度仍不足以直接与CPU匹配,容量密度与NAND相去更远,这两个问题分别要靠SOT MRAM与3D MRAM来解决。

中期的方案是CPU与存储器单晶堆叠(monolithic stacking)的异质整合(heterogeneous integration),这方案将二者以芯片制造、异质封装的方法同时提升数据传递速度、减少功耗。在二者的异质整合中,谁取得整合主导权就取得技术和商业的发言权,这也难怪现在晶圆代工厂和存储器厂都开始建立自有封装能力,整合封装部分入自己的加值链。

长远的对策是个颠覆von Neumann架构的做法——存储器本身就可以做运算,存储器和控制单元合为一体。如此一来,数据自然不必在存储器与处理器间反覆搬运、递送,能耗自然低,速度也快。

存储器运算(in-memory computing)要能完全实现有2个先决条件。一是速度要快,要接近目前逻辑闸的速度。二是存储器单元要多,目前功能复杂的元件闸数极多。传统存储器在这两者间往往难以兼顾,是以目前存储器运算开始以新兴存储器为实施主体。

新兴存储器都是以电阻大小做为0与1态的分别。但是对于有些新兴存储器,位元之间的电导(电阻的倒数)变异很大,如果用新兴存储器,如PCM,做为逻辑闸会因电导变异而在感应(sensing)逻辑闸运算结果的时候产生误差,目前的努力方向之一就是在克服由电导变异产生运算误差的问题。

MRAM的电导变异不大,目前的努力方向之一在于如何利用既存存储器线路结构形成逻辑闸。方案之一很简单,利用存储器的周边线路行解码器(column decoder)的传感器组合,便可选取一个单元当存储器,或者选取2个单元、配合传感器电压的设定形成各式的逻辑闸。这样设计的MRAM对于整体线路的面积负荷增加并不大,不至于恶化目前MRAM容量密度不高的事实。至于速度不够快的问题,脑筋已动到SOT MRAM头上,运算速度的确可以再提升。

短期间内大概没法子将完整的复杂逻辑线路大幅搬移到存储器中,现在新兴存储器的容量密度不足,也不够快。但是可以想到的是将一些特殊应用、反覆使用的简单运算先搬到存储器中,比如AI芯片中常用的运算像纯量内积(scalar product)、矩阵,矢量相乘(matrix-vector multiplication)等运算先在存储器中处理,后续的运算再传递至主处理器进行,这样就可以大幅减少巨量信息的搬动。

一个重要的题外话,如果存储器运算真的是半导体的远程未来,那麽是以逻辑为主的公司、还是存储器为主的公司会在未来的竞争中胜出?这个问题值得想一想!

现为DIGITIMES顾问,1988年获物理学博士学位,任教于中央大学,后转往科技产业发展。曾任茂德科技董事及副总、普天茂德科技总经理、康帝科技总经理等职位。曾于 Taiwan Semicon 任谘询委员,主持黄光论坛。2001~2002 获选为台湾半导体产业协会监事、监事长。