数码科技快速汇流 大数据角色日益重要 智能应用 影音
MongoDB
ADI

数码科技快速汇流 大数据角色日益重要

  • 洪千惠

大约半年前,美国在台协会与美国创新中心共同举办一项论坛,意在探讨未来应用趋势;其间有专家特别点明大数据应用发展的重要性,综观当今炙手可热的议题,包括物联网(IoT)、智能城市、增/虚拟实境(AR/VR)、区块链、语音识别,以及人工智能(AI)等等项目,可望透过大数据(Big Data)技术产生数码汇流效果,将人类社会带向一场巨大的变革。

前述提及的重大科技趋势,彼此环环相扣、相辅相成。比方说,初估目前全球联网装置来到84亿台,这些装置可借助区块链技术以强化安全性;再者透过物联网,将使智能城市应用场景持续产生巨量数据,这些数据亟待AI进行分析;此外,语音识别与AR/VR则需借重AI不断进行学习。

大数据市场规模预测。

大数据市场规模预测。

大数据使用案例。

大数据使用案例。

大数据框架。

大数据框架。

换言之,伴随数据驱动时代来临,各式数码科技议题应运而生,都可望为大数据市场持续挹注推升动能。

大数据市场后势看涨

根据Statista.com所揭露的大数据市场规模预测显示,该市场总营收可望从2011年的76亿美元、2012年的122.5亿美元,一路挺升至2026年的922亿美元,前后15年下来,足足增长了1,113%(11倍)之多。深究大数据市场之所以持续看涨,乃在于大多数企业皆深刻体认传统的数据应用处理,确实有所不足,然而一旦有效运用大数据,便能做出更明快睿智的决策,大幅优化短、中、长期的商业战略规划。

若就市场营收结构来细分,目前最大区块系为专业服务,现今年产值约百亿美元,约占整个市场饼图的5分之2强。惟专家预期,今后十年期间,专业服务的总体占比将逐步下滑,取而代之的新主流,将落在大数据软件之上。

至于当前企业在推展大数据应用的过程中,依然面临一些共通难题,例如安全性、建置成本,乃至缺乏大数据专业知识等环节,今后持续改善的空间仍相当大;此外基于企业决策高层主管的角度,在持续收集大数据的同时,又得兼顾数据品质的维护,堪称为重大挑战。

大数据首要使用场景,为数据仓储优化

根据Dresner Advisory Services产出的大数据分析市场研究报告显示,截至2017年,有53%企业已经导入大数据技术,即使现在还未导入的另外47%企业中,也有高达4分之3比例表示未来会加以采用。若以垂直产业来细分,采用大数据的比例已突破50%大关的4个行业领域,由高而低依序是电信、金融、高科技、医疗。

针对大数据的使用案例(Use Case)部份,高达七成企业认为最关键的项目为数据仓储优化,另外两项获得逾五成企业认同的Use Case项目,则包括了客户/社群分析,以及预测性维护;其余项目如点击流(clickstream)分析、诈欺侦测、物联网,则分别获致30%~40%企业的青睐。

以现今持续发烧的AI话题而论,多数企业皆心知肚明,数据就是AI的养分,如果缺乏数据,便不必奢望能产生任何AI应用成果。持平而论,数据早已存在于企业之中,且一直都在,但长期以来皆侧重于ERP、CRM、SCM、EIP...等等结构化的系统记录数据,反观带有知识、Know-how等导向的数据素材,数码化的整备度相对较低,有的被留在员工的个人电脑、甚至大脑当中,有的则散见于Google Analytics、Facebook或LINE等外部系统。

想当然尔,急欲建立大数据文化的企业,不可能见容于数据资源四处散落,因为这将导致决策高层无从看清公司营运的全貌,故而需要设法提升数据能力,使得不管是分析、讨论、规划等等需要用到的数据,都变得垂手可得;在此前提下,过去仅擅长处理结构化数据、且处理速度不够快的数据仓储系统,自然不敷使用,当然需要被优先、补强。比较常见的强化方式是,建立一套植基于Hadoop的数据湖泊,借此撷取各式大量数据,提升数据分析弹性,妥善因应非结构化数据、及全新的数据探索及挖掘需求,继而与传统数据仓储互补,共同撑起大数据分析应用的架构蓝图。

Spark后发先至,跃居主流框架

接着谈及大数据的软件框架。依照Dresner Advisory Services的报告显示,Spark、MapReduce与Yarn三者,是比较受到企业用户倚重的项目;如果以「关键」与「非常重要」的合计比例来看,唯独Spark超过五成关卡,显示该项技术在多数企业的大数据分析架构里头,已然扮演吃重角色。

Spark的问市时间,比起前辈Hadoop晚上4年,现今声势与老大哥相比毫不逊色,但Spark并非意在取代Hadoop,因为两者的存在目的不尽相同,Hadoop代表分散式的数据基础设施,并具有索引与追踪数据的能力,Spark则明显偏向分散式数据的处理工作,因此Spark能够取代的部份,仅止于Hadoop里头的MapReduce运算引擎;所以经常见到有企业在Hadoop环境中安装Spark,藉由HDFS储存数据,再透过Spark进行分析。

为何愈来愈多企业舍Hadoop自身的MapReduce不用,转而采用Spark?道理很简单,因为两者采用的数据处理方式不同,导致处理速度方面有莫大落差,握有「RDD(最小逻辑单位)」、「存储器运算」及「大幅减少磁碟I/O」等架构优势的Spark,数据分析速度甚至可比MapReduce快上百倍,无怪乎备受不少用户青睐。

有关大数据的存取方式,前身为Shark的SparkSQL技术拔得头筹,获得最多企业的普遍采用,略优于知名度甚至更高的HDFS与Hive;除了前三大技术外,Amazon S3也获得逾四成用户点明是重要的大数据存取方法。

掌握更多新时代决策者的商业智能,欢迎参加3/27的巨量数据论坛--当AI遇上BI,数据时代的企业决策大跃进,活动完全免费,掌握趋势,请速报名!