巨量数据助制造业改善制程缩短交期

DIGITIMES企划
2013-10-21
分享

制造业意欲建立竞争优势，先决条件即是良好的制程、迅捷的交期，因此必须竭尽所能提前找出生产瓶颈，尽速排除种种难题；此一应用情境，着实蕴含了莫大的巨量数据分析应用空间。

制造业在从事生产制造的过程中，必然需要借助大量机器设备，而这些机器在长期运转之下，必然产出为数众多的底层数据(Row Data)，然碍于数据分析技术的欠缺，导致这些数据经常沦为视而不见的庞杂垃圾；殊不知只要透过细微的观察分析及萃取，即可望从中找出有助于提高生产力、缩短产品交期的关键因子！

在过去，制造业者对于这些制程数据的平白耗损，莫不备感无奈，只因工厂内部动辄数百个、甚至数千个生产机台，而这些机台所产生的数据量不仅庞大，且格式属性互不相同，要想善加分析，实为非常艰困的任务，所以长期以来，只能任凭大量制程数据被束之高阁，难以被萃取成为有价值的信息，更无从转化为制程智能。

因此当巨量数据分析议题现身，制程业者无不大感振奋，只因若能善加运用此技术，那怕再怎麽大量且多样化的数据，都能够在最短时间内，予以有效处理，从而在良率改善(Yield Improvement)、虚拟量测(Virtual Metrology；VM)，乃至于预测性维护(Predictive Maintenance；PdM)等各个面向，产生立竿见影的综效；所以若说巨量数据是带动制造业提振生产力的关键路径，一点也不为过。

制程不断演进　带动数据量飞速增长
根据分析机构预测，2015年全球数据量将爆增至7,910 Exabytes，相较于2005年的130 Exabytes，足足爆增5,984.62%，成长速度之惊人不在话下，但很现实的问题，包括制造业在内的任何型态企业，同样在这十年间的信息预算增长幅度，比起这个超过5,000的百分点，肯定远远瞠乎其后；因此有制造业者认为，若不先针对IT架构加以全盘改造，根本无法驾驭巨量数据。

就以深具举足轻重地位的晶圆制造业来说，回顾十年前，IC制程不过是90奈，此后才短短数年，制程即从65纳米、40纳米一路进展到28纳米，导致业者所需蒐集与分析的制程数据，也伴随着制程的进化而一路爆增。最早期，晶圆制造业者所需处理的生产信息，仅停留在lot这个层次，此后随着制程演进，致使数据处理需求更显细腻，光是lot已经不够，于是推移到了lot的下一阶层、也就是wafer，时至今日，就连wafer都显得太过粗略，必须再从wafer下探到die阶层。

透过数据处理单元从lot、wafer推进到die，即意谓数据处理量呈现数以千倍计的成长！很简单的道理，一个lot等同于25片wafer，至此数据量先是增长了25倍，到了die层次，则由于一片wafer内含100个die，所以数据量必须再乘上100倍，按照这个逻辑推演，晶圆制造业在十年期间所需处理的数据量，便已增加2,500倍之多。

但光是蒐集到以die为基准的制程数据，够吗？答案是否定的！进入28纳米、甚至是20纳米的新纪元，制造业者已不容等到生产作业结束后，再来估算Machine数据的平均值，而必须因应不同参数，每秒至少产出一次Machine数据，这个变量一旦加入，其数据量增长幅度可就不像上述的2,500倍如此简单，而是猛涨到令人不敢想像的地步；在此前提下，晶圆制造业意欲沿用旧法，先将数据蒐集完成，再送进数据库执行分析比对，必然不可行！

着眼于此，开始有业者深入钻研Hadoop、MapReduce等巨量数据技术，并据以建立全新的巨量数据处理机制，另外再搭配数据储存、数据检索与数据探勘等其他技术，建构出巨量数据分析平台，期望借此汇聚丰沛的分析能量，为尔后仅能以「可怕」二字形容的数据分析需求，做足万全准备。

Big Data分析加数据探勘　从庞杂数据理出头绪
也可归类为半导体制造范畴的LED制造业，亦面临与晶圆代工相似的难题。以20纳米制程为例，单单一天机台所产生的数据量，便多达20~30 TB、甚至更大，且个中涉及十分繁杂的数据属性，这些数据皆与Yield Improvement、VM、PdM甚至是Process Drift等应用主题至为相关，绝无可能弃之不顾。

众所周知，LED制造业最关键的生产设备为MOCVD(Metal Organic Chemical Vapor Deposition)机台，一家中大型规模的业者，通常都拥有超过100台、甚至200台的MOCVD，而其最关键的制程，乃是落在磊晶制程，也就是从蓝宝石基板变为磊芯片的过程，这段历程的配方(Recipe)极为复杂，内含多达60个手续、及100个参数，两两相乘即构成6,000个手续参数，另外还得再乘上各个参数所对应的不同区间范围，因此初估MOCVD机台每运行8小时所产生的数据量，少说也到达600万笔之谱。

Recipe如此，wafer则更加复杂，由于需考量多达1万个以上的LED电器特性，以及不同的参数、各参数的区间范围，把这些维度予以相乘，又将衍生骇人听闻的巨量数据。举例来说，有关异地(Ex-Situ)制程部分，针对光致发光光谱成像(PL Mapping)，其量测项目即包括波长、强度与光学分辨率，范围区间各为435~454 nm、1.2~7.3 V、25~37 nm，在区间之内每一个看似微小数值的变动，都将衍生数以倍计的数据，更何况除了PL Mapping外，尚有EL Mapping、Thickness Mapping等其余量测项目，所以数据变动的因子，实已到达深不可测的地步。

面对如此庞大数据量，单凭传统处理模式，绝对无法有效支撑，因此意欲提升MOCVD良率，别无他法，肯定需要借助巨量数据分析技术。有监于台湾LED晶粒市占率甚高，不管在于红黄光(AlGaInP)或蓝绿光(GaN)等不同规格的LED磊芯片及晶粒制造，都堪称是全球生产重镇，影响台湾整体经济产值甚钜，因此工研院遂以巨量数据分析技术为主轴，与某家LED磊晶制造商合作推动制程改善计划，从而透过「主成份分析(Principal. Component Analysis；PCA)」、「关联法则探勘(Association Rule Mining；ARM)」、「反应曲面法(Response Surface Method；RSM)」等技术，针对配方参数执行关联性分析，再藉由「隐藏式马可夫模型(Hidden Markov Model；HMM )」与「回归(Regression)」等方法论，基于良率提升目的而进行配方预测，终至展现成效。

上述案例，颇值得制造业予以参考借镜，且无论是从事LED、晶圆代工、太阳能板或显示面板等半导体制程的业者，从事炼油、塑胶原料、人造纤维或纺织纤维之石化制造商，抑或以工具机为首的机械制造业，都可倚靠巨量数据分析技术，针对良率改善、虚拟量测或预测性维护等不同面向，获得关键性的优化方案。

专家指出，前述所列的不同型态制造商，都经常与时间赛跑，必须致力将等待时间降至最低，以避免延误交期，然往往事与愿违，偏偏就有颇高比例的机台，其等待时间总是逾越缺省的标准；值此时刻，若能够借助巨量数据的分析方法，再搭配数据探勘等相关技术，即可望藉由相关数据的分析，洞悉上下游数据之间的关联因素，从而找到足以改善问题的重点与方法，并据此设计可供持续追踪的KPI，凡此种种，可谓巨量数据分析应用的价值所在。

而制造业另一个关注的主题，则在于致力提升生产效率，此时亦可运用巨量数据分析技术，探索各生产机台实际上发生的问题为何，继而透过相关监视报告，让一些出现异常的机台、以及造成异常的真因浮出台面，接着针对异常机台的关键部件进行优化，并设法降低输出损耗，如此一来，便可望让所有机台恒常维持健康状态，发挥最佳生产力。

加入已选取到「关键字追踪」什麽是「关键字追踪」

商情专辑－制造与医疗业巨量数据应用专辑