整合巨量数据的奥秘 智能应用 影音
DForum1018
ADI

整合巨量数据的奥秘

  • 吴馥羽

亦思科技股份有限公司 处长 江孟峰
亦思科技股份有限公司 处长 江孟峰

巨量数据已经成为十分热门的议题,关于巨量数据分析的特性,包括从随机抽取样本演变为分析全体数据形成的「巨量性」,从结构化数据进化为非结构化数据的「多样性」,反应时间缩短且实时撷取数据的「实时性」,到数据来源的控管与确认的「真实性」,许多人都早已耳熟能详。

江孟峰认为,企业若要掌握整合巨量数据的奥秘,第一步要关心的是什麽时候要用巨量信息?如许多企业纳入巨量数据分析的非结构化数据(Unstructured Data),包括e-mail、机器记录、社交媒体贴文、文件、电子书、医疗纪录等,其实只是「还未结构化的数据」,江孟峰认为,必须要想办法先结构化,才能进行处理。

事实上,巨量数据可能遭遇的问题还很多,除了原本无法存入数据的数据,要如何处理外,随着数据量的成长,原有应用的关联式数据库势必会开始不堪负荷,当数据库中的某个栏位达到数百万笔以上的记录时,效能就会开始下降,甚至严重下降到企业主难以忍受的程度,就需要将这种成长迅速的数据,尽快移转到巨量数据库。

江孟峰指出,以制造业为例,机台所产生的数据愈来愈快,如果想要分析这些数据,可能就得购买许多服务器来分析,如Hadoop就可以串联很多台服务器来分析,但Hadoop只提供了档案系统的分析,如果想要分析结构化数据,就得安装HBase。

此外,巨量数据分析的系统架构技术及相关费用,也必须加以考量。江孟峰指出,Hadoop的系统特性为可组成可伸缩的的丛集,提昇运算能量,自动备援; 从古至今,数据分析的对象都是结构化数据,但分析需要meta data,HBase不用直接使用Map Reduce,且HareDB HBase Client则是比较容易理解栏位的型式,适合喜欢SQL查询,并能够快速汇入巨量数据的需求。

至于费用方面,Hadoop是用一般的服务器连结成丛集,且依据需求调整数量,并可自动备援;HBase的优点则是不用训练一批工程师学习新的程序技术,也不用重新开发所有系统;HareDB HBase Client则是可以让已经熟悉SQL的工程师,可以很快的上手,并在最短的时间内,开始进行巨量数据分析。

江孟峰指出,HBase Client操作工具支持HQL,与SQL类似,可快速查询,而其具备的Meta Data管理能力,可用View清楚了解数据呈现,易于管理,而快速上载巨量数据的能力,更可解决巨量数据处理难题,且可管理多个丛集。

但如果企业的思维,以为巨量数据库是要用来取代原有的关联式数据库,其实是有问题的。因为原有的数据库所遭遇的问题,可能只需要在软硬件方面做适当的投资就能解决。

江孟峰认为,巨量数据库的价值,应该是可以将许多商业行为如半导体产品的制造良率,以前都只能从制造过程所产生的数据来蒐集分析,但上下游的供应链会有一些行为,如果供货不及,调整良率的急迫性就没那麽高。更重要的是,企业现在的制造思维,已经开始转向终端客户需求,而不是下游客户而已,因此需要蒐集更多未结构化的数据进行分析。

至于要如何把还未结构化的数据结构化,江孟峰指出,已有明确分析的目标,仍然是多数企业的选择,否则也可先看看数据再想如何分析。而在应用推广方面,目前在建立巨量数据处理平台方面,江孟峰表示,目前已可针对结构或非结构的数据进行蒐集、过滤、储存、查询、分类等分析功能,数值类型数据部分也可整合到传统BI工具,文字类型数据进行视觉化呈现。

此外,在建立与分析工具连结的方式方面,目前也可善用主流技术,整合现有系统,达到降低成本、增数据量、分析关键因素的目标。导入相关技术的产业包括半导体制造、IC设计、影像处理、供应链分析、客户数据管理等。

江孟峰最后指出,企业现有的数据库一旦不堪负荷,可以先尝试提升硬件及数据库软件,但如果想要不限维度的分析数据,或是已将数据压缩成一大堆档案,需要好好整理时,就需要巨量数据库及相关分析工具。

企业若有有建立巨量数据库的需求,江孟峰建议,企业应先了解产品的特性与建议,而且要看到模拟的成果验证,并有认证服务团队的支持,才是可靠的巨量分析工具。


关键字