做好数据仓储 巨量数据价值才能累积 智能应用 影音
Microchip
Event

做好数据仓储 巨量数据价值才能累积

  • 陈婉洁

关贸网络股份有限公司 系统开发及支持部经理 陈俊良
关贸网络股份有限公司 系统开发及支持部经理 陈俊良

数据堪称是新时代的原油,值得各界投入探勘,以淘宝网为例,在俗称「光棍节」的11月11日,一整天的交易量高达300多亿元人民币(相当于台币1,500多亿),相当于PChome十年的交易量,更重要的是,交易过程产生几十TB的数据,若能善用这些数据,势必能对淘宝网上的客户喜好,有更深入的了解。

在网络时代,虽然说Content(内容)为王,在数据科技(Data Technology)年代,讲得是挖掘Context价值。数据蒐集再多,若不了解数据的内涵,却可能只是「入宝山却空手而回」。关贸网络陈俊良经理指出,企业若想要善用巨量数据(Big Data),关键在于思想观念的转变,甚至要建立以数据为核心的的商业流程。

若从字面上来拆解「Big Data」,「Big」是要解决数据爆炸的问题,要利用数据仓储(Data Platform)把所有数据收进来,然后解决储存及计算的问题,目前又以Hadoop为解决前述问题的最热门工具之一;「Data」则是解决数据使用分析的问题,尤其是跨学科分析技术,不管是数学统计、Data Mining、Machine Learning及特定产业的领域专家,都非常需要,才能将巨量数据分析技术应用在特定产业或市场领域上。

陈俊良强调数据科学的精神就是「与其相信一人的判断,不如相信千万人的数据」,但一般人无法处理千万人的数据,所以需要专家及新技术来处理。但目前跨学科分析技术的人才不足问题相当严重,因为数据科学家人才,要十八般武艺样样精通,但如果找很多各自具备专长的专家群,则又会有沟通方面的问题。

另外一方面来看,若要善用巨量数据,一定要统整巨量数据仓储的数据来源,就像采矿之前要确认矿源,包括交易数据、政府开放信息、物联网、云端应用或移动设备、社群数据等,都是数据的主要来源,应用前一定要多方探索了解。

谈及数据储存应用的演进过程,大部分来自于在线交易处理(OLTP)系统,但这些数据库都还只是一个孤岛,汇整相关数据库逐步发展到在线分析处理(OLAP)数据仓储,从企业重要作业流程应用(Line-Of-Business Application)一路发展到大型企业信息仓储(Enterprise Data Warehouse),现在已经发展到巨量数据仓储(Big Data Warehouse),数据量愈来愈大的趋势,俨已成形。

另一方面,数据来源型态格式更是千变万化,包括企业内部、外部连结、非结构数据,都必须透过File Loading或ETL (Extract-Transform-Load)工具来转置蒐集,并集中到Hadoop数据平台上。由于目前的Hadoop技术以批次处理HDFS上面的数据为主,实时分析通常还是要靠传统Enterprise Data Warehouse (EDB)才能实时处理,现今发展技术则是结合In Memory Computation或SQL onHadoop等技术,设法在Hadoop上形成巨量数据仓储,达到接近实时应用的目标。

陈经理表示,In Memory Computation的概念,是要让很多台机器一起以小搏大运作,靠软件技术来存取调用,网络存取交换硬盘数据速度也要相对非常快才跟得上,数据视情况看是否需压缩处理,而且因为数据是在存储器上处理,还必须要有能力避免因为当机,造成数据不一致的问题。

陈经理也分享了关贸数据仓储的经验,如何先做好数据永久保存,非常重要,关贸的云端存证就是扮演这个角色,因为各应用系统会产生很多历史纪录及文件,可以用来做进一步的分析,如网安防护、行业数据分析及其他应用。

而在存证应用方面,除了要先做好二阶云端异地备份外,还需确保数据的一致性。陈俊良特别指出,两年前Hadoop技术尚未完全成熟时要导入商业应用,必须要自己花不少时间去做小心验证,才能大胆应用到在线服务。以流通业应用为例,要连结外部数据才能作更深入的分析,如在不同的时段会有不同的热销产品,才知道该怎麽去管理供应商,至于购物篮分析,则可以随选细化观察商品搭售的状况。

在客服CTI则可以做服务热点分析,包括那些厂商常问那些问题、各系统前十大问题等,都可以提供详细的分析报告,一旦知道什麽样类型的客户,会提出什麽类型的问题,企业就可以预先针对前述问题提出最佳解决方案。

此外,利用系统日志纪录(Log)做异常侦测,也可以进行网安防护,只要先将记录周期性地做好整理,利用In Memory计算技术实时参考历史流量统计模型,判断当下流量是否出现异常或乖离现象,就会立刻发出警告通知系统管理者。

关贸网络也将分析技术应用在社交网络舆情探勘上,陈经理指出,人工进行舆情信息的蒐集及判断非常辛苦,在瞬息万变信息爆炸的年代,若可透过巨量数据及自然语言分析技术来增强自动化作业,减少人工投入或监控的成本,则能提升随时掌握信息之明显效益。基本文本内容的正负面观感判断技术,经过人工领域调适后可达70%以上正确性,足以让有效舆情信息蒐整合本大幅下降。

整体而言,巨量数据分析技术应用于关贸网络的各项服务上,效益相当卓着。举例说明,以零售代理客户导入分析型CRM系统为例,有效会员数就因此增加92%;网络电子商务客户强化在线推荐功能、应用分析型精准行销,也让在线推荐成交比率由13%提升为27%;处理22亿笔交易数据,执行Ad-hoc Query任意分析,查询时间大幅由5分钟有效缩短至10秒内达成。

关贸陈俊良经理最后强调,巨量数据分析技术其实是一种学习用数字解决问题的科学方法,但坐而言不如起而行,数据大小其实不是问题,而是要先知道问题何在?数据是否有解?就可解放巨量数据的应用价值,由内部支持系统走向营运决策,发挥更大的综效。