数据类型质量巨变巨量数据分析应开发专门技术

许淑意
2015-03-12
分享

巨量数据分析可能会因此改变我们理解及组织社会的方式。DIGITIMES摄

由于信息化应用的普及，导致数据量的规模已经庞大到无法透过人工，在合理时间内达到撷取、管理、处理、并整理成为人类所能解读的信息，根据IDC统计，数码世界的信息容量将会从2009年的0.8ZB，在2020年成长到35ZB，等于每15秒就成长1PB，年复合成长率高达40%，而且这些数据数据不仅巨大而且不同，如何优化数据，方便且容易的查找到所需要的信息，也变得更加困难。

因此，如何将数据采矿(Data Mining)的技术有效的应用在巨量数据(Big Data)中，快速萃取出未知且有价值的潜在信息，进而找出市场趋势，创造新的商机，会是未来企业竞争中一项重要的优势与目标。

Google利用运算及在线查询的优势，结合巨量数据分析，可提供更快速而精确的预测。DIGITIMES摄

传统数据分析方式无法适用于巨量数据

值得注意的是，数据采矿的相关技术及应用，早在90年代即已提出，无论是方法抑或是工具都已经相当成熟且完善，但过去数据采矿的工具与模块，往往是以单一机器的环境为对象，而非今日的分散式系统或云端运算环境。事实上，许多在单一的机器上很容易做到的事情，在分散式系统上会变得很难很复杂且困难。

因此，想要分析巨量数据，不能只是直接援用现有的数据采矿技术及应用，因为巨量数据分析所需要的数据库管理系统，往往必须在数十、数百甚至数千台服务器上同时运行。根据KDnuggets网站调查，数据采矿分析使用平均约1？10GB的数据大小，与动辄数据量超过TB等级的巨量数据，差异非常的大。故数据探勘以往所能处理的数据，充其量只能称为「大」数据，而非「巨量」数据。

除了量的变化外，目前的数据类型，也已经超越传统数据库或现有数据管理工具能够处理的范围。因为在爆炸性的数据增长过程中，结构性数据的成长相当缓慢，反观非结构性的数据，包括视讯、网页、智能手机、消费数据、位置数据、财务服务数据，以及社会媒体数据等。

而目前的数据库解决方案，主要是用来设计储存结构化数据，除了只能针对已知问题的回答速度进行优化外，架构本身往往就决定了内容形式，对于新数据型态与新问题，都有适应上的困难，加上扩展成本高昂，企业势必得寻求不同以往的数据处理解决方案，才能面对爆炸性的数据增长。

巨量数据分析能力的四大原则

历经过去几年在技术上与观念上的进展，巨量数据分析已经成为公私部门组织的竞争利器之一，甚至逐渐形成了跨越统计、信息科技、行政管理等领域的数据科学(Data Science)领域。

由于巨量数据的特性难以用传统分析方法进行分析，必须用进阶的技术和演算法来解读、储存、分析与管理，如何培育并善用兼具Volume(数据数据的大量)、Velocity(数据分析的时效)、Variety(数据格式的多样)与Veracity(数据内容的真实)所谓4V特质的巨量数据分析能力，也逐渐成为跨越统计、信息、与特定业务领域的共同议题。

如新型禽流感疫情在2009年开始快速蔓延时，美国疾病管制局(Centers for Disease Control；CDC)要求医生必须通报新型流感的病例，但传统的报送作业方式往往需要约两个星期的时间，这样的速度也会让公共卫生机构错失防疫的先机。

Google工程师曾在科学期刊Natural发表有关流感的研究指出，他们将Google每天300万个与禽流感相关的查找关键字，与CDC从2007到2008年的实际禽流感染案例，透过数学演算法(Algorism)进行相关性(correlation)分析比对，最后找出45个与实际发生禽流感案例有很强相关性的查找项目组合，只要在特定区域发现这些查找项目组合，发生禽流感的案例也会随之增多。

Google利用运算及在线查询的优势，提供更快速而精确的预测，协助公共卫生机构掌握疫情信息，可见单单只有储存数据量庞大是没有任何用处的，因为数据并不会自己进行分析，想要从大量的信息中得到价值，必须要找到新技术。

如位置信息也是巨量数据分析一个非常重要的分析标的，巨量数据若能结合地理信息系统(Geographic Information System；GIS)，除了「人」的位置信息以外，「物体」的位置也可以利用这类的装置进行大量的蒐集，这些信息也成为重要的分析数据，让用户的地理位置变成非常宝贵的数据。

亚马逊(Amazon)在思考如何根据个别的消费习性，推荐特定的商品给消费者时，本来是用传统的分析方法，直接从巨量的客户数据中抽样后，再分析客户之间的相似度，但分析结果提供的建议却很粗糙，如消费者只是购买一项婴儿用品，系统却只是推荐一大堆相类似产品。

亚马逊后来意识到，系统不应该去比较客户，而是要找出产品之间的关连，必须用到全部的数据，并在事前完成计算，才能够在客户购物时，很快地给出适当建议，结果也比先前成功，如喜爱A作者的读者，未必会喜欢A作者全部的书，但经由关连分析后，却可能会发现喜爱A作者的人，多半同时会喜欢B作者的书，这样的巨量数据交叉分析，才会带来更大的效益。

改变理解及组织社会的方式

虽然现在蒐集数据要比以前容易许多，但也因为数量前所未有的庞大，必须要找到一种巨量数据的分析方法，才能够混和数据采矿过程，蒐集相关数据，进行相关分析，并找到真正可以操作的KPI，才会有很大的机会，找到分析标的的改善重点及方法，这也才是巨量数据分析应用的价值所在。

总上所述，巨量数据分析方法需要注意3个重点，并因此改变我们理解及组织社会的方式，第一大改变是能够取得、分析的数据量大为增加，使用所有数据分析，而非抽样筛选，可以让我们清楚看见数据中最细致的地方；第二大改变是不再坚持一切都要做到精准，巨量数据分析虽可减少抽样造成的误差，仍必须对于测量上的误差，给予一定程度的妥协，放弃百分之一百的精确；第三大改变是放下长久以来对于因果关系的坚持，而专注于发现事物的相关性，只找寻事情「正是如此」的答案，而不一定要了解某件事「为何如此」。

由此可知，对一个组织而言，巨量数据分析的最重要价值有二，其一是分析使用(analytical use)，透过巨量数据分析，揭露数据隐藏的洞见(insight)，如顾客之间的同侪影响、消费者的交易习惯以及社会及空间数据的关系，这些洞见在过去往往因为数据分析的成本太高而被忽视；其二是开发新产品(enabling new products)，巨量数据分析可以实时的处理与分析数据，以发现新的需求而刺激服务或产品的创新。

关键字

Data Mining 巨量数据

加入已选取到「关键字追踪」什麽是「关键字追踪」

商情专辑－巨量数据分析专辑

数据类型质量巨变 巨量数据分析应开发专门技术

数据类型质量巨变巨量数据分析应开发专门技术