存儲器运算的可能趋势

林育中

2019-03-14

新兴存儲器在整合存儲器体制已初露曙光，基本上是朝向统一存儲器(united memories)的方向走，但都还有些距离。TDK

依据von Neumann架构，计算机中存儲器和控制单元是分离的，这也是目前计算机及相关的半导体零件制造的指导方针。但是在目前海量數據的处理与储存上，这样的架构对數據的「读取—处理—储存」循环在數據传送速度、功耗上形成重大挑战。特别是存儲器本身因写入速度、保留时间等的特性差异，从cache、DRAM、NAND等形成复杂层层相转的存儲器体制(memory hierarchy)，让數據的处理循环变得更长、更耗能。

当網絡的帶寬变大、人工智能(AI)应用对于大数据处理的需求日益提高，上述的问题益发严重。这个问题的解决有多个面向，也分短、中、长期的战术与战略。

短的来说，新兴存儲器在整合存儲器体制已初露曙光，基本上是朝向统一存儲器(united memories)的方向走，但都还有些距离。PCM容量密度现在比较大，速度虽然比NAND快很多，但还是不如DRAM，存儲器体制问题还残留，功耗也还是问题。RRAM的容量密度还没提上来，短期内只可能从NOR的替代切入。MRAM的速度较快，赶上DRAM了，但速度仍不足以直接与CPU匹配，容量密度与NAND相去更远，这两个问题分别要靠SOT MRAM与3D MRAM来解决。

中期的方案是CPU与存儲器单晶堆叠(monolithic stacking)的异质整合(heterogeneous integration)，这方案将二者以芯片制造、异质封装的方法同时提升數據传递速度、减少功耗。在二者的异质整合中，谁取得整合主导权就取得技术和商业的发言权，这也难怪现在晶圆代工厂和存儲器厂都开始建立自有封装能力，整合封装部分入自己的加值炼。

长远的对策是个颠覆von Neumann架构的做法——存儲器本身就可以做运算，存儲器和控制单元合为一体。如此一来，數據自然不必在存儲器与处理器间反复搬运、递送，能耗自然低，速度也快。

存儲器运算(in-memory computing)要能完全实现有2个先决条件。一是速度要快，要接近目前逻辑闸的速度。二是存儲器单元要多，目前功能复杂的元件闸数极多。传统存儲器在这两者间往往难以兼顾，是以目前存儲器运算开始以新兴存儲器为实施主体。

新兴存儲器都是以电阻大小做为0与1态的分别。但是对于有些新兴存儲器，位元之间的电导(电阻的倒数)变异很大，如果用新兴存儲器，如PCM，做为逻辑闸会因电导变异而在感应(sensing)逻辑闸运算结果的时候产生误差，目前的努力方向之一就是在克服由电导变异产生运算误差的问题。

MRAM的电导变异不大，目前的努力方向之一在于如何利用既存存儲器线路结构形成逻辑闸。方案之一很简单，利用存儲器的周边线路行解码器(column decoder)的傳感器组合，便可选取一个单元当存儲器，或者选取2个单元、配合傳感器电压的设定形成各式的逻辑闸。这样设计的MRAM对于整体线路的面积负荷增加并不大，不至于恶化目前MRAM容量密度不高的事实。至于速度不够快的问题，脑筋已动到SOT MRAM头上，运算速度的确可以再提升。

短期间内大概没法子将完整的复杂逻辑线路大幅搬移到存儲器中，现在新兴存儲器的容量密度不足，也不够快。但是可以想到的是将一些特殊应用、反复使用的简单运算先搬到存儲器中，比如AI芯片中常用的运算像纯量内积(scalar product)、矩阵，矢量相乘(matrix-vector multiplication)等运算先在存儲器中处理，后续的运算再传递至主处理器进行，这样就可以大幅减少巨量信息的搬动。

一个重要的题外话，如果存儲器运算真的是半导体的远程未来，那么是以逻辑为主的公司、还是存儲器为主的公司会在未来的竞争中胜出？这个问题值得想一想！

存儲器运算的可能趋势

林育中 DIGITIMES顾问

作者其他文章

推荐活动

让AI代理为企业全面赋能 - 规划财务转型之路

Teledyne FLIR OEM 热成像 × AI 创新论坛