融合BI与Big Data快速累积智能资产

DIGITIMES企划／
2013-12-30
分享

最近几年，商业智能(BI)的声音并不算大，反观巨量数据(Big Data)却是响彻云霄；让人不禁认为，过往BI将功成身退，将由巨量数据取而代之，然而趋势真是如此？

综观近3年来大大小小的IT论坛、研讨会，无论主题为如何，经常都听闻讲者向企业用户呼吁，必须留四大趋势，而且这四大趋势彼此之间环环相扣；这些趋势是什麽？除了云端运算、移动化、社群应用外，即是现今当红炸子鸡－Big Data。

影响所及，过去不时谈论BI、数据采矿(Data Mining)等议题的业界人士，逐渐不谈这些东西了，转而跟进巨量数据浪潮，开口闭口都是Big Data；而有些深具技术背景的IT人，眼见Big Data，就彷若苍蝇见到血，不断卯足全劲上前吸吮，朗朗上口的都是Hadoop等艰深名词。

一夕之间，难免予人一种感觉，BI趋近销声匿迹，似乎唯有拥抱巨量数据、Hadoop，才是真正的王道，因为如此不仅能从过去视而未见的非结构化数据中大举挖矿，也能一并取代传统的BI；在此情况下，不管是ODS (Operational Data Store)、数据仓储(Data Warehouse)，彷佛都不怎麽需要了。

巨量数据现身　不意谓BI就此退位
前述的感觉，一方面源自于当前巨量数据的盛况，这是无可厚非的，但在另一方面，则对于过往的BI系统多所贬抑，看来合理，但个中谬误之处其实不少，最大的症结在于巨量数据是无法取代BI的，因此两者之间并无彼消此长的因果关系；甚至可以这麽说，企业之所以拥抱巨量数据，为的就是挖掘出既有BI系统所无法处理的数据价值，特别是非结构化数据，其与过往商业智能分析工具可谓殊途同归，若说Big Data也是广义商业智能的一环，一点也不为过。

在此情况下，有些企业CIO视巨量数据分析为「进化版BI」，它之所以出现，正是因为过去BI做得不够好。

随着BI构面朝向巨量数据延伸，对于企业来说，也确实堪称为美事一椿，只因过往不论作数据采矿、在线分析处理(OLAP)，或是藉由Reporting System产出报表，不但都围绕着数据库里头的结构化数据，更重要的，这些数据绝大部分来自企业内部，久而之之，企业总是运用「Inside Out」角度来看待外部市场环境的变化，以作为决策制定的基础，如今若能善用巨量数据，不仅可针对内部大量非结构化数据，诸如文字、网页、声音、影像、日志档(Log)，执行有效的蒐集与分析，从中撷取更多有助于营运加值的养分，亦可让分析范畴跨越到公司以外，譬如社群媒体等更为宽广的境地，继而转换为「Outside In」思考模式，及早厘清客户如何看待企业所推出的商品、行销活动，从而检视自身的商业决策是否正确，接着进行内部资源整合，尽速调整营运步调，以期妥善呼应市场需求，创造更大的利益与价值。

至少在短期间内，肇因于现今巨量数据分析技术尚处于进化阶段，还不够纯熟，所以企业即便对于巨量数据心生向往，但当务之急的是，绝非朝向Big Data另立新门户，将数据仓储、ODS、ETL(Extract-Transform-Load)、报表系统、OLAP、数据采矿、平衡计分卡、战情室…等一干过往的BI基盘予以捣毁舍弃，而应设法让两者并存，彼此间持续交换数据，才能在新旧时代交替的转捩点上，建立最佳的平衡点。

融合式分析架构　更加迎合企业期望
因此展望未来数年，企业所需建构的商业分析版图，不宜继续独尊于过去的Structure Data结构，而也不宜全然向Big Data新架构倾斜，而是一种融合式的BI架构。

如何建立融合式BI架构？一家深具BI系统建置辅导经验的本土业者，提出两种做法。其一，是让原本植基于结构化数据分析的BI系统架构不动，另外再基于巨量数据分析，建立Hadoop基础架构，佐以新一代前端展现工具，据此建构另一套分析系统架构，接着定制产出数据转换程序，以利于两者之间进行介接；如此一来，经由巨量数据分析架构，针对非结构化数据、半结构化数据所萃取的有价信息，便有适当的路径，可以回归到既有BI系统架构进行整合分析，将加值运用的成效予以极大化。

上述双轨分进合击的做法，好处是建置时程似乎较快，但只靠定制化的数据转换程序加以介接，数据整合度难免不足，且因反覆Hard Coding徒然加重程序开发负担，更有加重管理复杂度之虞，因此纵有「短多」可期，亦不乏「长空」隐忧。

至于另一套做法是，借助业界发展的巨量数据管理系统，使得传统BI分析与Hadoop平台，能够同时纳入单一视窗予以统一管控；而在此一架构中，举凡传统的ETL，乃至于Hadoop平台项下的HDFS/HBase读写、Hive/Pig语言程序、MapReduce程序发布、Cascading作业程序与Mahout语言程序等等，应有尽有，据此建立一个高度融合的混搭式商业智能分析环境。

如此做法的好处是，可以大幅降低技术门槛，并有效减少系统维运复杂度，且因为省却繁琐的程序开发程序，因而足以坐收快速部署、减轻后续维运负担等多重效益；由此观之，此一做法较诸于上述双轨分进合击模式，显然更能迎合企业需求。

在融合式商业智能分析架构运作下，一旦面临相对单纯的巨量数据处理作业需求，则可迅速将之导向传统BI架构，让使用者透过较为成熟且熟悉的工具，化繁为简地实现最终分析目的，反之，如果巨量数据处理作业较为复杂，可能涉及到诸如R Software专业统计软件等运作需要，此时才会使融合式架构面临较大考验。

如何解决此项难题？幸而业界也已找出解决之道，也就是运用一套开放式机制，便于用户将复杂作业定制为外挂(Plug-in)模块，毋需大费周章，即可将此类Plug-in插入统合式的管理环境中，一并纳入管理；如此一来，所谓巨量数据管理系统的开放性或高或低，就显得格外重要，毕竟随着企业对于巨量数据的分析需求日益深化，终究有朝一日，肯定需要执行更为复杂的巨量数据处理作业，唯有底层平台具备足够开放性，方可从容应付这一切挑战。

在此同时，原本擅长于关联式数据库的厂商，抑或先前并未推出数据库系统的业者，都亟思透过自行研发或购并方式，朝向大量平行处理(Massively Parallel Processing ；MPP)数据库发展。

此类数据库，不仅蕴含已被用户广为使用、也极易上手的商业智能分析与报表工具，也悉心置入了Hadoop连接器，俾使企业可运用相同的环境，一边衔接Hadoop运算架构，一边则衔接既有的前端呈现工具，好让原来略显艰涩的巨量数据处理结果，得以透过化繁为简的途径，藉由友善界面呈现于使用者眼前。

值得一提的，这类型MPP数据库，不再依循传统关联式数据库的Raw-based运算结构，转而采取 Column-based全新索引架构，得以营造较为显着的增速效果，使得使用者毋需旷日费时，即可轻松而快速地查询巨量数据；纵使将MPP数据库套用于传统OLAP或在线交易处理(OLTP)等日常作业，执行效率也突飞猛进。凡此种种，皆有助于企业建构融合式的商业智能分析机制，相关产品或技术的演进，颇值得密切留意。

加入已选取到「关键字追踪」什麽是「关键字追踪」

商情专辑－商业智能专辑