融合BI与Big Data快速累积智能资产
最近几年,商业智能(BI)的声音并不算大,反观巨量数据(Big Data)却是响彻云霄;让人不禁认为,过往BI将功成身退,将由巨量数据取而代之,然而趋势真是如此?
综观近3年来大大小小的IT论坛、研讨会,无论主题为如何,经常都听闻讲者向企业用户呼吁,必须留四大趋势,而且这四大趋势彼此之间环环相扣;这些趋势是什麽?除了云端运算、移动化、社群应用外,即是现今当红炸子鸡-Big Data。
影响所及,过去不时谈论BI、数据采矿(Data Mining)等议题的业界人士,逐渐不谈这些东西了,转而跟进巨量数据浪潮,开口闭口都是Big Data;而有些深具技术背景的IT人,眼见Big Data,就彷若苍蝇见到血,不断卯足全劲上前吸吮,朗朗上口的都是Hadoop等艰深名词。
一夕之间,难免予人一种感觉,BI趋近销声匿迹,似乎唯有拥抱巨量数据、Hadoop,才是真正的王道,因为如此不仅能从过去视而未见的非结构化数据中大举挖矿,也能一并取代传统的BI;在此情况下,不管是ODS (Operational Data Store)、数据仓储(Data Warehouse),彷佛都不怎麽需要了。
巨量数据现身 不意谓BI就此退位
前述的感觉,一方面源自于当前巨量数据的盛况,这是无可厚非的,但在另一方面,则对于过往的BI系统多所贬抑,看来合理,但个中谬误之处其实不少,最大的症结在于巨量数据是无法取代BI的,因此两者之间并无彼消此长的因果关系;甚至可以这麽说,企业之所以拥抱巨量数据,为的就是挖掘出既有BI系统所无法处理的数据价值,特别是非结构化数据,其与过往商业智能分析工具可谓殊途同归,若说Big Data也是广义商业智能的一环,一点也不为过。
在此情况下,有些企业CIO视巨量数据分析为「进化版BI」,它之所以出现,正是因为过去BI做得不够好。
随着BI构面朝向巨量数据延伸,对于企业来说,也确实堪称为美事一椿,只因过往不论作数据采矿、在线分析处理(OLAP),或是藉由Reporting System产出报表,不但都围绕着数据库里头的结构化数据,更重要的,这些数据绝大部分来自企业内部,久而之之,企业总是运用「Inside Out」角度来看待外部市场环境的变化,以作为决策制定的基础,如今若能善用巨量数据,不仅可针对内部大量非结构化数据,诸如文字、网页、声音、影像、日志档(Log),执行有效的蒐集与分析,从中撷取更多有助于营运加值的养分,亦可让分析范畴跨越到公司以外,譬如社群媒体等更为宽广的境地,继而转换为「Outside In」思考模式,及早厘清客户如何看待企业所推出的商品、行销活动,从而检视自身的商业决策是否正确,接着进行内部资源整合,尽速调整营运步调,以期妥善呼应市场需求,创造更大的利益与价值。
至少在短期间内,肇因于现今巨量数据分析技术尚处于进化阶段,还不够纯熟,所以企业即便对于巨量数据心生向往,但当务之急的是,绝非朝向Big Data另立新门户,将数据仓储、ODS、ETL(Extract-Transform-Load)、报表系统、OLAP、数据采矿、平衡计分卡、战情室…等一干过往的BI基盘予以捣毁舍弃,而应设法让两者并存,彼此间持续交换数据,才能在新旧时代交替的转捩点上,建立最佳的平衡点。
融合式分析架构 更加迎合企业期望
因此展望未来数年,企业所需建构的商业分析版图,不宜继续独尊于过去的Structure Data结构,而也不宜全然向Big Data新架构倾斜,而是一种融合式的BI架构。
如何建立融合式BI架构?一家深具BI系统建置辅导经验的本土业者,提出两种做法。其一,是让原本植基于结构化数据分析的BI系统架构不动,另外再基于巨量数据分析,建立Hadoop基础架构,佐以新一代前端展现工具,据此建构另一套分析系统架构,接着定制产出数据转换程序,以利于两者之间进行介接;如此一来,经由巨量数据分析架构,针对非结构化数据、半结构化数据所萃取的有价信息,便有适当的路径,可以回归到既有BI系统架构进行整合分析,将加值运用的成效予以极大化。
上述双轨分进合击的做法,好处是建置时程似乎较快,但只靠定制化的数据转换程序加以介接,数据整合度难免不足,且因反覆Hard Coding徒然加重程序开发负担,更有加重管理复杂度之虞,因此纵有「短多」可期,亦不乏「长空」隐忧。
至于另一套做法是,借助业界发展的巨量数据管理系统,使得传统BI分析与Hadoop平台,能够同时纳入单一视窗予以统一管控;而在此一架构中,举凡传统的ETL,乃至于Hadoop平台项下的HDFS/HBase读写、Hive/Pig语言程序、MapReduce程序发布、Cascading作业程序与Mahout语言程序等等,应有尽有,据此建立一个高度融合的混搭式商业智能分析环境。
如此做法的好处是,可以大幅降低技术门槛,并有效减少系统维运复杂度,且因为省却繁琐的程序开发程序,因而足以坐收快速部署、减轻后续维运负担等多重效益;由此观之,此一做法较诸于上述双轨分进合击模式,显然更能迎合企业需求。
在融合式商业智能分析架构运作下,一旦面临相对单纯的巨量数据处理作业需求,则可迅速将之导向传统BI架构,让使用者透过较为成熟且熟悉的工具,化繁为简地实现最终分析目的,反之,如果巨量数据处理作业较为复杂,可能涉及到诸如R Software专业统计软件等运作需要,此时才会使融合式架构面临较大考验。
如何解决此项难题?幸而业界也已找出解决之道,也就是运用一套开放式机制,便于用户将复杂作业定制为外挂(Plug-in)模块,毋需大费周章,即可将此类Plug-in插入统合式的管理环境中,一并纳入管理;如此一来,所谓巨量数据管理系统的开放性或高或低,就显得格外重要,毕竟随着企业对于巨量数据的分析需求日益深化,终究有朝一日,肯定需要执行更为复杂的巨量数据处理作业,唯有底层平台具备足够开放性,方可从容应付这一切挑战。
在此同时,原本擅长于关联式数据库的厂商,抑或先前并未推出数据库系统的业者,都亟思透过自行研发或购并方式,朝向大量平行处理(Massively Parallel Processing ;MPP)数据库发展。
此类数据库,不仅蕴含已被用户广为使用、也极易上手的商业智能分析与报表工具,也悉心置入了Hadoop连接器,俾使企业可运用相同的环境,一边衔接Hadoop运算架构,一边则衔接既有的前端呈现工具,好让原来略显艰涩的巨量数据处理结果,得以透过化繁为简的途径,藉由友善界面呈现于使用者眼前。
值得一提的,这类型MPP数据库,不再依循传统关联式数据库的Raw-based运算结构,转而采取 Column-based全新索引架构,得以营造较为显着的增速效果,使得使用者毋需旷日费时,即可轻松而快速地查询巨量数据;纵使将MPP数据库套用于传统OLAP或在线交易处理(OLTP)等日常作业,执行效率也突飞猛进。凡此种种,皆有助于企业建构融合式的商业智能分析机制,相关产品或技术的演进,颇值得密切留意。