数码科技快速汇流大数据角色日益重要

洪千惠
2018-03-15
分享

大约半年前，美国在台协会与美国创新中心共同举办一项论坛，意在探讨未来应用趋势；其间有专家特别点明大数据应用发展的重要性，综观当今炙手可热的议题，包括物联网(IoT)、智能城市、增/虚拟实境(AR/VR)、区块链、语音识别，以及人工智能(AI)等等项目，可望透过大数据(Big Data)技术产生数码汇流效果，将人类社会带向一场巨大的变革。

前述提及的重大科技趋势，彼此环环相扣、相辅相成。比方说，初估目前全球联网装置来到84亿台，这些装置可借助区块链技术以强化安全性；再者透过物联网，将使智能城市应用场景持续产生巨量数据，这些数据亟待AI进行分析；此外，语音识别与AR/VR则需借重AI不断进行学习。

大数据市场规模预测。

大数据使用案例。

大数据框架。

换言之，伴随数据驱动时代来临，各式数码科技议题应运而生，都可望为大数据市场持续挹注推升动能。

大数据市场后势看涨

根据Statista.com所揭露的大数据市场规模预测显示，该市场总营收可望从2011年的76亿美元、2012年的122.5亿美元，一路挺升至2026年的922亿美元，前后15年下来，足足增长了1,113%(11倍)之多。深究大数据市场之所以持续看涨，乃在于大多数企业皆深刻体认传统的数据应用处理，确实有所不足，然而一旦有效运用大数据，便能做出更明快睿智的决策，大幅优化短、中、长期的商业战略规划。

若就市场营收结构来细分，目前最大区块系为专业服务，现今年产值约百亿美元，约占整个市场饼图的5分之2强。惟专家预期，今后十年期间，专业服务的总体占比将逐步下滑，取而代之的新主流，将落在大数据软件之上。

至于当前企业在推展大数据应用的过程中，依然面临一些共通难题，例如安全性、建置成本，乃至缺乏大数据专业知识等环节，今后持续改善的空间仍相当大；此外基于企业决策高层主管的角度，在持续收集大数据的同时，又得兼顾数据品质的维护，堪称为重大挑战。

大数据首要使用场景，为数据仓储优化

根据Dresner Advisory Services产出的大数据分析市场研究报告显示，截至2017年，有53%企业已经导入大数据技术，即使现在还未导入的另外47%企业中，也有高达4分之3比例表示未来会加以采用。若以垂直产业来细分，采用大数据的比例已突破50%大关的4个行业领域，由高而低依序是电信、金融、高科技、医疗。

针对大数据的使用案例(Use Case)部份，高达七成企业认为最关键的项目为数据仓储优化，另外两项获得逾五成企业认同的Use Case项目，则包括了客户/社群分析，以及预测性维护；其余项目如点击流(clickstream)分析、诈欺侦测、物联网，则分别获致30%~40%企业的青睐。

以现今持续发烧的AI话题而论，多数企业皆心知肚明，数据就是AI的养分，如果缺乏数据，便不必奢望能产生任何AI应用成果。持平而论，数据早已存在于企业之中，且一直都在，但长期以来皆侧重于ERP、CRM、SCM、EIP...等等结构化的系统记录数据，反观带有知识、Know-how等导向的数据素材，数码化的整备度相对较低，有的被留在员工的个人电脑、甚至大脑当中，有的则散见于Google Analytics、Facebook或LINE等外部系统。

想当然尔，急欲建立大数据文化的企业，不可能见容于数据资源四处散落，因为这将导致决策高层无从看清公司营运的全貌，故而需要设法提升数据能力，使得不管是分析、讨论、规划等等需要用到的数据，都变得垂手可得；在此前提下，过去仅擅长处理结构化数据、且处理速度不够快的数据仓储系统，自然不敷使用，当然需要被优先、补强。比较常见的强化方式是，建立一套植基于Hadoop的数据湖泊，借此撷取各式大量数据，提升数据分析弹性，妥善因应非结构化数据、及全新的数据探索及挖掘需求，继而与传统数据仓储互补，共同撑起大数据分析应用的架构蓝图。

Spark后发先至，跃居主流框架

接着谈及大数据的软件框架。依照Dresner Advisory Services的报告显示，Spark、MapReduce与Yarn三者，是比较受到企业用户倚重的项目；如果以「关键」与「非常重要」的合计比例来看，唯独Spark超过五成关卡，显示该项技术在多数企业的大数据分析架构里头，已然扮演吃重角色。

Spark的问市时间，比起前辈Hadoop晚上4年，现今声势与老大哥相比毫不逊色，但Spark并非意在取代Hadoop，因为两者的存在目的不尽相同，Hadoop代表分散式的数据基础设施，并具有索引与追踪数据的能力，Spark则明显偏向分散式数据的处理工作，因此Spark能够取代的部份，仅止于Hadoop里头的MapReduce运算引擎；所以经常见到有企业在Hadoop环境中安装Spark，藉由HDFS储存数据，再透过Spark进行分析。

为何愈来愈多企业舍Hadoop自身的MapReduce不用，转而采用Spark？道理很简单，因为两者采用的数据处理方式不同，导致处理速度方面有莫大落差，握有「RDD(最小逻辑单位)」、「存储器运算」及「大幅减少磁碟I/O」等架构优势的Spark，数据分析速度甚至可比MapReduce快上百倍，无怪乎备受不少用户青睐。

有关大数据的存取方式，前身为Shark的SparkSQL技术拔得头筹，获得最多企业的普遍采用，略优于知名度甚至更高的HDFS与Hive；除了前三大技术外，Amazon S3也获得逾四成用户点明是重要的大数据存取方法。

掌握更多新时代决策者的商业智能，欢迎参加3/27的巨量数据论坛--当AI遇上BI，数据时代的企业决策大跃进，活动完全免费，掌握趋势，请速报名！

关键字

大数据巨量数据

加入已选取到「关键字追踪」什麽是「关键字追踪」

议题精选－数据驱动营运决策专辑

数码科技快速汇流 大数据角色日益重要

数码科技快速汇流大数据角色日益重要