整合巨量数据的奥秘

吴馥羽
2014/04/07 00:00
分享

亦思科技股份有限公司处长江孟峰

巨量数据已经成为十分热门的议题，关于巨量数据分析的特性，包括从随机抽取样本演变为分析全体数据形成的「巨量性」，从结构化数据进化为非结构化数据的「多样性」，反应时间缩短且实时撷取数据的「实时性」，到数据来源的控管与确认的「真实性」，许多人都早已耳熟能详。

江孟峰认为，企业若要掌握整合巨量数据的奥秘，第一步要关心的是什麽时候要用巨量信息？如许多企业纳入巨量数据分析的非结构化数据（Unstructured Data），包括e-mail、机器记录、社交媒体贴文、文件、电子书、医疗纪录等，其实只是「还未结构化的数据」，江孟峰认为，必须要想办法先结构化，才能进行处理。

事实上，巨量数据可能遭遇的问题还很多，除了原本无法存入数据的数据，要如何处理外，随着数据量的成长，原有应用的关联式数据库势必会开始不堪负荷，当数据库中的某个栏位达到数百万笔以上的记录时，效能就会开始下降，甚至严重下降到企业主难以忍受的程度，就需要将这种成长迅速的数据，尽快移转到巨量数据库。

江孟峰指出，以制造业为例，机台所产生的数据愈来愈快，如果想要分析这些数据，可能就得购买许多服务器来分析，如Hadoop就可以串联很多台服务器来分析，但Hadoop只提供了档案系统的分析，如果想要分析结构化数据，就得安装HBase。

此外，巨量数据分析的系统架构技术及相关费用，也必须加以考量。江孟峰指出，Hadoop的系统特性为可组成可伸缩的的丛集，提昇运算能量，自动备援；从古至今，数据分析的对象都是结构化数据，但分析需要meta data，HBase不用直接使用Map Reduce，且HareDB HBase Client则是比较容易理解栏位的型式，适合喜欢SQL查询，并能够快速汇入巨量数据的需求。

至于费用方面，Hadoop是用一般的服务器连结成丛集，且依据需求调整数量，并可自动备援；HBase的优点则是不用训练一批工程师学习新的程序技术，也不用重新开发所有系统；HareDB HBase Client则是可以让已经熟悉SQL的工程师，可以很快的上手，并在最短的时间内，开始进行巨量数据分析。

江孟峰指出，HBase Client操作工具支持HQL，与SQL类似，可快速查询，而其具备的Meta Data管理能力，可用View清楚了解数据呈现，易于管理，而快速上载巨量数据的能力，更可解决巨量数据处理难题，且可管理多个丛集。

但如果企业的思维，以为巨量数据库是要用来取代原有的关联式数据库，其实是有问题的。因为原有的数据库所遭遇的问题，可能只需要在软硬件方面做适当的投资就能解决。

江孟峰认为，巨量数据库的价值，应该是可以将许多商业行为如半导体产品的制造良率，以前都只能从制造过程所产生的数据来蒐集分析，但上下游的供应链会有一些行为，如果供货不及，调整良率的急迫性就没那麽高。更重要的是，企业现在的制造思维，已经开始转向终端客户需求，而不是下游客户而已，因此需要蒐集更多未结构化的数据进行分析。

至于要如何把还未结构化的数据结构化，江孟峰指出，已有明确分析的目标，仍然是多数企业的选择，否则也可先看看数据再想如何分析。而在应用推广方面，目前在建立巨量数据处理平台方面，江孟峰表示，目前已可针对结构或非结构的数据进行蒐集、过滤、储存、查询、分类等分析功能，数值类型数据部分也可整合到传统BI工具，文字类型数据进行视觉化呈现。

此外，在建立与分析工具连结的方式方面，目前也可善用主流技术，整合现有系统，达到降低成本、增数据量、分析关键因素的目标。导入相关技术的产业包括半导体制造、IC设计、影像处理、供应链分析、客户数据管理等。

江孟峰最后指出，企业现有的数据库一旦不堪负荷，可以先尝试提升硬件及数据库软件，但如果想要不限维度的分析数据，或是已将数据压缩成一大堆档案，需要好好整理时，就需要巨量数据库及相关分析工具。

企业若有有建立巨量数据库的需求，江孟峰建议，企业应先了解产品的特性与建议，而且要看到模拟的成果验证，并有认证服务团队的支持，才是可靠的巨量分析工具。

关键字

巨量数据

加入已选取到「关键字追踪」什麽是「关键字追踪」

商情专辑－巨量数据论坛专辑