巨量数据分析带动储存市场商机
根据IBM研究显示,全球数据量至2020年将会增加为40 ZB,约为2005年全球数据量的300倍。从企业平均储存数据量来看,目前美国企业单一公司平均数据储存量也高于100 TB,由于各类移动应用的普及速度与物联网的大量应用,信息量增加的速度在未来10年内,仍将呈现快速成长的趋势。
信息量的快速增加,主要是来自于社群网络、智能手机应用的蓬勃发展,因此,除了传统客户交易信息的分析外,其他诸如社群网络意见、用户回应反馈等情报分析的重要性也跟着大幅增加,也明显影响巨量数据分析应用的趋势。
因此,企业在导入巨量数据分析应用的同时,为了能够实时分析大量数据,势必得面临到大量数据的储存问题,除了得设法因应不断成长的大量数据外,如何取舍数据储存选择、数据保存期限、对应巨量数据的结构变化,设计储存架构等,都将是企业导入巨量数据分析应用时,所要面对的课题,连带也成为储存软硬件应用业者必须掌握的商机。
企业要有能力储存大量非结构性数据
传统的数据分析,多半是透过固定数据栏位架构,将存在依循规定好的结构标准中的数据,储存到关联式数据库中来进行处理。但由于常见的巨量数据来源,包含RFID信息、传感器网络信息、网际网络文件、社交网络数据、影音图片、网络查找纪录、客服中心呼叫记录、医学记录,甚至是生产线机台设备产生的Log记录,数据结构千变万化,不可能迎合事先规定好数据结构的关联式数据库,企业唯有发展出结构化信息分析的能力,才能分析从移动设备或社群网络上的巨量数据,如影片、社群讨论、语音、地理信息等数据。
相较于传统的数据分析,这些来自于社群或移动网络的巨量数据,往往具有三大特性:数据量大、输入和处理速度快、数据结构更具多样性。在数据量方面,因为所有的信息都可能在未来派上用场,企业保存数据的期限,势必要扩大到半年甚至一年以上。以中华电信保留的数据如用户网页浏览记录为例,每个月就会产生大约3~4TB的数据量,若要分析这些原始数据,过程中必须对数据进行多种复制和转换,导致系统要处理的数据量,可能还会再增加2倍以上。
但企业若想要储存长达一年以上的信息量,很可能会让企业储存信息高达数10TB甚至PB,企业势必得面临储存设备采购的庞大支出,如何在有限且逐年减少的IT预算中,找到更符合成本效益的储存解决方案,导入新的储存架构,以建构一个成本合理且处理效率高的储存硬件架构,便成为巨量数据时代的重要趋势。
高速数据分析能力成必要考量
传统信息系统处理数据的形式,通常是先将需要处理的信息传送到运算数据的程序系统内,进行处理与分析后,再将处理结果运送回储存设备内储存。由于这些数据都是已经简化或萃取过的数据,在数据运送与存储上的效率需求并不高。
但在巨量数据的趋势下,由于需要处理的数据量,单次就可能是TB等级以上,如果用前述的信息处理方式,势必会大幅增加储存设备存取与系统带宽的工作量,花费许多时间与资源在数据传输与读取上,大幅减缓信息分析的时程。
因此,企业除了要面对迅速膨胀的数据量外,还得设法掌握高效率的数据处理技术。尤其是同时面对大量结构与非结构数据要同时分析的状况下,如在分析消费者采购偏好时,可能就得同时分析消费纪录,以及消费者在社群网络上的文字对话、影音分享等众多档案。如何让数据在不同架构的平台下能够互通与共同分析,并使资源有效的被利用,建构可以弹性因应档案需求而调整的储存系统,也成为必要考量。