Flash与SSD产业的挑战─可靠度与总成本 智能应用 影音
AIEXPO2024
DForum0515

Flash与SSD产业的挑战─可靠度与总成本

  • DIGITIMES企划

华腾国际科技产品经理部总监曾德彰
华腾国际科技产品经理部总监曾德彰

当跨入10nm制程以下,NAND Flash即将面临到严苛的ECC实时修正位元的暴增、使用寿命的减短,读取速度等会影响到品质、耐受度的严苛考验。存储器╱固态硬盘厂商以可靠度与总成本(Total Cost of Ownership;TCO)为设计理念,掌握快闪存储器与其他非挥发性存储器技术进程,并搭配自家专属的防护技术,使快闪记忆卡、U盘与SSD等产品避免因操作过程突然断电所造成的数据遗失,延长使用寿命并提昇品质…

快闪存储器即将面临物理制程的极限

华腾国际科技(ATP)产品经理部总监曾德彰(Alex Tseng)指出,目前NAND Flash已经发展到20nm与19nm,2013年即将看到15nm的样品,他大胆假设在10nm之后即将面临制程上的挑战。以64word-lines为一个Cell,32nm制程采用单价十亿元的浸润式机台的多重曝光显影技术(Multiple Patterning),2D-NAND(MLC)做到2,564nm2,3D(SLC 4Layers)则是1,475nm2,3D(MLC 4Layers)为867nm2;3D(MLC 8Layers)做到433.5nm2;25nm制程使用Airgap(Spacer)降低干扰的技术,2D-NAND(MLC)可做到1,775nm2,3D(SLC四层)做到1,202nm2,3D(MLC四层)作到726nm2,3D(MLC八层)做到323nm2

20nm制程采High-K Metal Gate(High-K金属闸极)技术,2D-NAND(MLC)可做到1,434nm2,3D(四层SLC)为940nm2,3D(四层MLC)为584nm2,3D(八层MLC)做到292nm2;15nm制程采EUV或其他技术,2D-NAND(MLC)做到965nm2,3D(四层SLC)为764nm2,3D(四层MLC)为492nm2,3D(八层MLC)为246nm2

各NAND Flash大厂即将于2013?2014年陆续推出采3D垂直或堆叠技术的快闪存储器,可以在32nm制程就将成本下降到以往需15nm制程才能达到的水准。

目前三星主要有TCAT与VG-NAND等技术,东芝有P-BiCS( Pipeline Bit Cost Scalable Solution)技术,美光有DG TFT(Dual gate TFT)技术,海力士则是S-FG(Surrounding FG)技术;台湾旺宏(Macronix)也在2009年发表BESONOS技术,交大R. Shirota教授发表兼容2D制程的3D TFT SONOS技术等。ATP与这些快闪存储器业者有长期的合作,掌握技术趋势并提供稳定且成本有效下降的产品。

至于其他像是磁阻存储器(ReRAM)、强铁存储器(FeRAM),相位变化存储器(PCRAM)等非挥发性存储器,Alex Tseng认为除非它们的制造成本能快速下降到每1GB等于或小于1美元,不然要取代NAND Flash的机会非常低。以电脑存储器金字塔结构来看,最顶端SRAM做为CPU Cache,第2层则是DRAM做为系统运作快取(System Cache);金字塔底层 NAND Flash/HDD做为主流储存装置,前述的MRAM/PC RAM,在2015年前顶多可做为NVM Cache等利基型应用。

快闪存储器可靠性对控制芯片的挑战

从NAND Flash耐受度(Endurance)与所需ECC修正位元数的趋势来看,过去SLC仅使用1bit ECC,P/E Cycles为100K,到了2xnm就降到60K,MLC则随着制程的演进,Endurance呈现巨幅下降,ECC修正位元数呈现指数曲线的暴增;从5xnm制程的MLC的P/E Cycles有10K、需4bit ECC,到3xnm制程的MLC其P/E Cycles已下降到5K,且需要 8bit ECC;2xnm制程的MLC则降为3K、ECC修正位元提高到15?24bit。而TLC存储器的P/E Cycles更降到1K以下,需72bit甚至上百位元的ECC。因此Flash控制芯片的编码技术,将从BCH编码技术,逐渐转向LDPC(Low Density Parity Check)。

从去年苹果并购以色列Anobit公司,到今年希捷与DensBits公司策略联盟,代表大厂亟欲掌控快闪存储器信号处理技术。以读写区间示意图来看,SLC只有一个Program区间及Erase区间,Endurance与Retention Margin较大;在同样的电压准位下,MLC区分成三个Program区间及Erase区间,Endurance与Retention Margin变小也变窄;当跨入TLC,同样的电压准位被区分成七个 Program区间及Erase区间,每个Program区间已经没有margin使得read retry成为必须,Endurance与Retention Margin也变得最小。

另外NAND Flash有Read Disturb(读取扰动)的效应。从一个NAND Flash阵列电路图可看出,即便只有读取某一个Page,在跟该读取Page处于同一条Vdd电压连接的相邻Page都会被干扰到,估计MLC累积100K次相邻读取,或SLC累积1KK次相邻读取之后,会开始产生无法ECC修正的错误。

因此ATP与控制芯片合作,提供了三?五年后依然维持稳定的唯读数据应用。一个NAND Flash储存装置,会有LBA mapping table,以及区分成较常反覆读写的Hot data Zone,以及较少读写的Cold data Zone,其中hot data zone有一小部份区域是存放着开机的OS/Boot-up Sector,控制芯片随时侦测每个区块的健康状况,当累积读取到了一定次数,会将OS/Boot-up Sector从搬移到Cold data Zone,以避免累积超读取扰动的上限次数,造成ECC无法修正读取错误,进而延长该装置的使用寿命。

协助客户依照其应用、寿命与最低TCO去规划其Flash产品

ATP会依照客户对产品品质与耐受度的需要,考量故障返修率,规划出长期总持有成本(TCO)最低的加值应用方案。假使客户在产品评估阶段假设花10美元,此阶段选择正确的存储器组件相当重要,因为接下来万一该组件停产需要变更时,此时以精要花费达到50美元;而当该产品如果评估的寿命未到时就被要求替换,往往得花费100美元,最可怕的就是因品质以及电源因素造成的失效,此时返修成本可能高到500美元,从一开始没选择正确的产品组件,到最后增加的总持有成本高达2,000美元或更高。

要如何确保产品生命周期与品质,ATP从BOM表控制,到长期供应相同制程、同等级endurance/retention的组件,与存储器、控制芯片供应商长期紧密的夥伴关系,长期提供可选择的不同来源的组件,以因应一级大厂客户所需要的三?五年长期供应合约上的品质需求。

曾德彰同时提到,对于SSD耐受度的评估,除了主要因素取决于选用MLC(3K)或SLC(60~100K)存储器之外,另外像是WAI、Data Pattern与SSD Cache大小也是关键因素。像是客户的Data Pattern是随机杂乱的写1KB,其对Flash的耐受度反而比循序写16KB到各Block的耐受度还低,ATP以总写入位元组数(Total Byte Written ,TBW)为评估,以发挥每一个区块100%的储存效益,进而协助客户选择正确的产品,以符合其成本、预算下对实际应用的耐受度需求。

Flash存储器所储存的电荷位元电压值,会随时间及周遭温度影响而逐渐偏移降低,当降低于一个临界值就会出现判读错误的情况。而Flash的P/E Cycles与寿命,会随着其容量被占用的百分比的增加而逐步降低,例如MLC Flash仅用到10%容量时,整体P/E Cycles可以100%达到3K,使用寿命达到5年;当Flash使用50%容量,此时P/E Cycles、使用寿命可能减半成为2年,在一个频繁使用到近100%容量的环境下,其P/E Cycles数与使用寿命就会降到一年。

Flash储存装置的真实应用特性,可能是第1年到第N年,用户会经常性的写入,从第N年到第M年则降为一般性的读写,到M年以后仅能唯读,直到M+R年为止,因此ATP分析客户真实应用的特性,为客户规划并量身打造出适合其使用产品周期的产品。

降低电源突然失效╱中断的风险

曾德彰指出,对Flash存储器产品在进行写入时,像是正在写入控制器链结表(Linktable)或磁碟档案配置表(File Allocation Table;FAT)时,会造成产品失效需要返修的风险,甚至是整个磁碟数据的遗失,以及开机后无法识别该装置的风险。

ATP针对企业用户所需Power Cycling(电源长期间歇中断)的严苛应用,提供ATP PowerProtector功能,当面对突然的电压突波(power glitch)时仍可继续运作。在传统页读取(read page)、页程序化(program page)、区块抹写(erase block)仅能容忍0.2ms、1ms与2ms的中断,启用ATP Power防护机制后,容忍间隔值增加到5ms以上。

ATP电源防护可以智能侦测电源失效,并在关键断电时候,提供充足电源直到控制器╱Flash完成最后一道program/erase命令为止;ATP Power Protector在电源失效的情况下可以中止从主控端后续下的cmd/write命令,正在做program或Erase的区块则让它继续到完成为止。避免控制器进行链结表( Link table、address map of LBA)更新,或磁碟FAT表写入时被中断,而导致整个Flash储存装置的失效。

他总结ATP提供全系列不同尺寸、不同速率的Flash储存应用产品。从体积最小,传输速度10?30MB的SD、miniSD与microSD记忆卡产品,到传输速度从10?150MB/s的UFD、CF、DOM、CFast等U盘、记忆卡产品;以及传输速度从100MB起跳,SlimSATA、mSATA尺寸设计SSD模块,以及SATAⅡ、SATAⅢ的SSD,即便从早期512MB?32GB记忆卡,以及小容量4GB?480GB的SLC/MLC SSD产品仍持续提供。

SSD产品并提供ATP Power Protector 以强化power cycling应用时的安全防护与军用级防摔防震(MIL_STD-810G)认证,并具有AES/Military Secure Erase Tool。以最高达8,000 TB (TBW) 写入寿命的SATAIII SSD提供企业级与宽温使用环境下高达十年以上的产品使用寿命。