日立数据借助Pentaho 打通数据整合任督二脉
现今企业蒐集到的数据,多经由人工程序(如Key-in)产生,展望未来随着物联网、工业4.0之发展,分分秒秒都将涌入由机器产生的数据,且数量愈趋庞大,使数据来源益发繁杂,若企业未能建立有效混合不同数据,唯恐阻碍大数据分析应用进程。
日立数据系统(HDS)顾问陈建玮指出,当前企业普遍存在两个数据世界,一是以交易数据、客户基本数据为主的结构化数据,企业通常运用现有ETL(萃取?转换?加载)工具,将这些数据汇入数据仓储,再进行商业分析,整段历程耗时且辛苦。
另一世界是基于网络、社群媒体或地理位置的非结构化数据,企业往往利用现有工具,将数据整理后汇入NoSQL或Hadoop Cluster,再经由ETL程序进入Analytic DB执行分析。
麻烦的是,前述两个世界之间,向来存在着不易跨越的隔阂,因此无法混合运用彼此分析结果,导致企业难以从中洞察出真正富含价值的信息。
着眼于此,日立集团在两年前决定购并一向擅于数据整合与分析的Pentaho,如今已能协助企业透过Pentaho Data Integration(PDI)介接各种数据来源,不论结构化或非结构化数据、乃至Hadoop皆可纳入介接范围,从而快速建立深具数据一致性、完整性等关键特质的数据库湖泊(Data Lake)。
此外,企业还可借助Pentaho Business Analytics(BA)产出分析报表,藉由视觉化且动态的呈现画面,迅速撷取到有价值的信息。
陈建玮提出6点Checklist,只要符合这些条件,都亟需执行数据整合,它们分别是「需混用不同来源数据」、「数据不够乾净」、「需要不时加入新的数据来源」、「已准备好要汇集所需完整数据」、「每隔一段周期数据来源可能异动」、「需要做Ad-hoc与Drill-down分析」。