数据类型质量巨变 巨量数据分析应开发专门技术 智能应用 影音
EVmember
Event

数据类型质量巨变 巨量数据分析应开发专门技术

  • 许淑意

巨量数据分析可能会因此改变我们理解及组织社会的方式。DIGITIMES摄
巨量数据分析可能会因此改变我们理解及组织社会的方式。DIGITIMES摄

由于信息化应用的普及,导致数据量的规模已经庞大到无法透过人工,在合理时间内达到撷取、管理、处理、并整理成为人类所能解读的信息,根据IDC统计,数码世界的信息容量将会从2009年的0.8ZB,在2020年成长到35ZB,等于每15秒就成长1PB,年复合成长率高达40%,而且这些数据数据不仅巨大而且不同,如何优化数据,方便且容易的查找到所需要的信息,也变得更加困难。

因此,如何将数据采矿(Data Mining)的技术有效的应用在巨量数据(Big Data)中,快速萃取出未知且有价值的潜在信息,进而找出市场趋势,创造新的商机,会是未来企业竞争中一项重要的优势与目标。

Google利用运算及在线查询的优势,结合巨量数据分析,可提供更快速而精确的预测。DIGITIMES摄

Google利用运算及在线查询的优势,结合巨量数据分析,可提供更快速而精确的预测。DIGITIMES摄

传统数据分析方式无法适用于巨量数据

值得注意的是,数据采矿的相关技术及应用,早在90年代即已提出,无论是方法抑或是工具都已经相当成熟且完善,但过去数据采矿的工具与模块,往往是以单一机器的环境为对象,而非今日的分散式系统或云端运算环境。事实上,许多在单一的机器上很容易做到的事情,在分散式系统上会变得很难很复杂且困难。

因此,想要分析巨量数据,不能只是直接援用现有的数据采矿技术及应用,因为巨量数据分析所需要的数据库管理系统,往往必须在数十、数百甚至数千台服务器上同时运行。根据KDnuggets网站调查,数据采矿分析使用平均约1?10GB的数据大小,与动辄数据量超过TB等级的巨量数据,差异非常的大。故数据探勘以往所能处理的数据,充其量只能称为「大」数据,而非「巨量」数据。

除了量的变化外,目前的数据类型,也已经超越传统数据库或现有数据管理工具能够处理的范围。因为在爆炸性的数据增长过程中,结构性数据的成长相当缓慢,反观非结构性的数据,包括视讯、网页、智能手机、消费数据、位置数据、财务服务数据,以及社会媒体数据等。

而目前的数据库解决方案,主要是用来设计储存结构化数据,除了只能针对已知问题的回答速度进行优化外,架构本身往往就决定了内容形式,对于新数据型态与新问题,都有适应上的困难,加上扩展成本高昂,企业势必得寻求不同以往的数据处理解决方案,才能面对爆炸性的数据增长。

巨量数据分析能力的四大原则

历经过去几年在技术上与观念上的进展,巨量数据分析已经成为公私部门组织的竞争利器之一,甚至逐渐形成了跨越统计、信息科技、行政管理等领域的数据科学(Data Science)领域。

由于巨量数据的特性难以用传统分析方法进行分析,必须用进阶的技术和演算法来解读、储存、分析与管理,如何培育并善用兼具Volume(数据数据的大量)、Velocity(数据分析的时效)、Variety(数据格式的多样)与Veracity(数据内容的真实)所谓4V特质的巨量数据分析能力,也逐渐成为跨越统计、信息、与特定业务领域的共同议题。

如新型禽流感疫情在2009年开始快速蔓延时,美国疾病管制局(Centers for Disease Control;CDC)要求医生必须通报新型流感的病例,但传统的报送作业方式往往需要约两个星期的时间,这样的速度也会让公共卫生机构错失防疫的先机。

Google工程师曾在科学期刊Natural发表有关流感的研究指出,他们将Google每天300万个与禽流感相关的查找关键字,与CDC从2007到2008年的实际禽流感染案例,透过数学演算法(Algorism)进行相关性(correlation)分析比对,最后找出45个与实际发生禽流感案例有很强相关性的查找项目组合,只要在特定区域发现这些查找项目组合,发生禽流感的案例也会随之增多。

Google利用运算及在线查询的优势,提供更快速而精确的预测,协助公共卫生机构掌握疫情信息,可见单单只有储存数据量庞大是没有任何用处的,因为数据并不会自己进行分析,想要从大量的信息中得到价值,必须要找到新技术。

如位置信息也是巨量数据分析一个非常重要的分析标的,巨量数据若能结合地理信息系统(Geographic Information System;GIS),除了「人」的位置信息以外,「物体」的位置也可以利用这类的装置进行大量的蒐集,这些信息也成为重要的分析数据,让用户的地理位置变成非常宝贵的数据。

亚马逊(Amazon)在思考如何根据个别的消费习性,推荐特定的商品给消费者时,本来是用传统的分析方法,直接从巨量的客户数据中抽样后,再分析客户之间的相似度,但分析结果提供的建议却很粗糙,如消费者只是购买一项婴儿用品,系统却只是推荐一大堆相类似产品。

亚马逊后来意识到,系统不应该去比较客户,而是要找出产品之间的关连,必须用到全部的数据,并在事前完成计算,才能够在客户购物时,很快地给出适当建议,结果也比先前成功,如喜爱A作者的读者,未必会喜欢A作者全部的书,但经由关连分析后,却可能会发现喜爱A作者的人,多半同时会喜欢B作者的书,这样的巨量数据交叉分析,才会带来更大的效益。

改变理解及组织社会的方式

虽然现在蒐集数据要比以前容易许多,但也因为数量前所未有的庞大,必须要找到一种巨量数据的分析方法,才能够混和数据采矿过程,蒐集相关数据,进行相关分析,并找到真正可以操作的KPI,才会有很大的机会,找到分析标的的改善重点及方法,这也才是巨量数据分析应用的价值所在。

总上所述,巨量数据分析方法需要注意3个重点,并因此改变我们理解及组织社会的方式,第一大改变是能够取得、分析的数据量大为增加,使用所有数据分析,而非抽样筛选,可以让我们清楚看见数据中最细致的地方;第二大改变是不再坚持一切都要做到精准,巨量数据分析虽可减少抽样造成的误差,仍必须对于测量上的误差,给予一定程度的妥协,放弃百分之一百的精确;第三大改变是放下长久以来对于因果关系的坚持,而专注于发现事物的相关性,只找寻事情「正是如此」的答案,而不一定要了解某件事「为何如此」。

由此可知,对一个组织而言,巨量数据分析的最重要价值有二,其一是分析使用(analytical use),透过巨量数据分析,揭露数据隐藏的洞见(insight),如顾客之间的同侪影响、消费者的交易习惯以及社会及空间数据的关系,这些洞见在过去往往因为数据分析的成本太高而被忽视;其二是开发新产品(enabling new products),巨量数据分析可以实时的处理与分析数据,以发现新的需求而刺激服务或产品的创新。