发展巨量数据技术 公私部门脚步要加快
由于各种智能终端装置如个人电脑、平板或智能手机的迅速普及,加上其他设备信息化(如智能家电)的脚步加快,各种机器设备所产生的数据数据,也正呈现倍速成长的趋势,加上物联网(Internet of Things;IoT)及「机器与机器间(Machine to Machine;M2M)间数据的交换环境已臻成熟,包括感应装置、移动设备、穿戴式装置及嵌入式装置的出现,更成为数据数据非常重要的来源,也让管理者可以拥有更多值得分析的数据,将巨量数据转化为商业生产力及竞争力,连带也让「巨量数据分析(Big Data Analytics;BDA)」技术,成为ICT产业最热门的科技之一。
由于巨量数据分析能力必须兼具Volume(数据数据的大量)、Velocity(数据分析的时效)、Variety(数据格式的多样)与Veracity(数据内容的真实)所谓4V特质,透过云端技术来部署巨量数据分析的系统,将会是非常洽当的选择。
因为进一步检视巨量数据分析系统的架构,最基本的层次架构包含应用层、分析层、数据处理层以及基础系统层,正好可以对应云端运算的服务模式,如软件即服务(SaaS)、平台即服务(PaaS)、以及基础架构即服务(IaaS)。
由于巨量数据分析能力的发展显然会与云端运算产业彼此互相牵动,如巨量数据显然需要存放在云(如后台的数据中心与众多服务器),才能藉由云端运算的技术架构与服务型态,所提供的高性能、低功耗、高弹性等特性,来因应巨量数据多元、量大、快速等特性,也才能藉由云端运算平台的数据创造、蒐集、储存、萃取、分析等运算过程,最后形成应用决策。
政府公部门积极投入
巨量数据分析的价值,不仅具有商业价值,对于本来就拥有巨量数据的政府公部门,更可以做为施政方向的重要依据。如美国政府曾发表「巨量数据研究与开发计划」(Big Data Research and Development Initiative),由科学与技术政策办公室(Office of Science and Technology Policy;OSTP)主导,共计6 个政府机构参与,投资2亿美元进行巨量数据技术研发。
其中包括国家科学基金会(National Science Foundation;NSF)提供加州柏克莱分校1,000万美元补助及「EarthCube」资金补助,并鼓励研究机构与大学从事人才育成工作;国家卫生研究所(National Institutes of Health;NIH)则是经由Amazon 的AWS(Amazon Web Services),将数据总量高达200 TB的千人基因组计划数据免费公开。
美国国防部(Department of Defense;DOD)每年更投入2,500万美元于巨量数据相关研究,其中600万美元用于新的研究项目。能源部(Department of Energy;DOE)则以2,500 万美元进行数据管理(Data Management)、分析与视觉化(Visualization)相关技术开发,并设立专责机构进行统合。
美国国防部先进研究计划局(Defense of Advanced Research Project Agency;DARPA)则是启动XDATA 计划,计划连续4年每年投入2,500万美元,开发分析大规模数据的运算工具和软件数据。地质调查局(United States Geological Survey;USGS)的「John Wesely Powell Center」,则是以地球科学理论为基础,启动新的巨量数据研究项目,进行地理信息相关的巨量数据验证与探索。
新加坡政府以精进的统计数据品质、多元而友善的传输界面、透明与公开的服务态度而着称,虽然受到地理区域的限制,在统计上则偏向城市的规模,但由于新加坡在多项统计编制及调查已有多年之历史,其规划作业方式及相关实务经验,仍值得各界参考。
如新加坡「通信发展管理局」(Infocomm Development Authority of Singapore;IDA)正计划在新加坡建立第一个包含8个数据中心的产业园区,提供100万平方米的空间,希望能吸引知名的巨量数据国际大厂如Oracle、Revolution Analytics等,进驻设立研究中心。
在实际应用方面,新加坡的Make Health Connect(MHC)医疗网络,已将上千个医疗院所,每年处理服务100多万人次的相关病历、处方、付费、病假数据,予以整合,仅利用看诊者之身份、看诊内容,即可利用其开发之平台与巨量数据分析技术,找出数据间之关联性与差异性,如结合GIS呈现流行病分布及扩散日程趋势,有益公共卫生追踪管理,并透过特异值检测,协助客户管理契约诊所。
台湾也正积极开发巨量数据分析技术,如新北市将与经济部合作,推动「新北传统产业大数据应用示范计划」,以大数据分析协助企业洞烛业务先机;期在资策会数据科技与应用研究所及产官学研各界共同支持下,锁定金属、机械、纺织产业,针对制程分析及销售分析两大面向,协助业者提升智能制造与高值服务能力,透过多元制程巨量数据的收集、分析,改善优化产能,并了解市场动向,掌握消费者观点。
国际大厂快速深化布局
国际科技大厂在发展巨量数据分析能力也相当积极。如亚马逊在2006年启动云端服务的业务AWS之后,从2009年开始提供以Hadoop为基础的Amazon Elastic MapReduce(Amazon EMR)服务、以及后续的数据仓库及商业智能的Amazon Redshift(2012)服务、数据串流的Amazon Kinesis(2013)服务、配合巨量数据分析的其他各种服务如NoSQL数据库功能的Amazon DynamoDB(2012)服务、云端储存及运算的Amazon S3(2006)服务、关联式数据库Amazon RDS(2009)服务、Amazon EC2(2006)服务等。
亚马逊在2014年于美国拉斯维加斯举办的年度大会中,宣布推出商用级关连数据库AWS Aurora,以及事件驱动运算服务AWS Lambda,也显示亚马逊正持续研发,希望能打造出一个巨量数据分析云端运算平台,同时提供给拥有巨量数据分析解决方案的第三方供应商使用,也因此帮助市场更加容易地开发及使用云端的巨量数据分析应用及系统。
微软(Microsoft)的巨量数据分析在云端运算的部署,目前已有Apache Hadoop微软版「Microsoft Azure HDInsight(2013)」,HDInsight采用了Hortonworks Data Platform(HDP)为主体包括了大部分Hadoop生态系统譬如Storm、HBase、Pig、Hive、Sqoop、Oozie、Mahout、Ambari等。
Google更是巨量分析技术的翘楚,Hadoop的原始组件-HDFS及MapReduce都是源自于Google。Google在2010年推出了支持巨量数据分析的BigQuery及Prediction API,BigQuery提供了对巨量数据以类似SQL的极快速查询功能,而Prediction API则提供了机器学习演算法对数据进行分析及创建预测模型。
IBM在购并仓储设备商Netezza、跨数据管理系统查找软件商Vivisimo后,也推出不少有关巨量数据分析技术的产品或服务,如:BigInsights(IBM Hadoop)、IBM Streams(数据流)、dashDB(数据仓库和分析)、VoltDB(内存NewSQL数据库)、Time Series DB(时间序列数据库)、Geospatial Analytics(地理空间分析)、IBM Watson Analytics(问答分析)等。
成立于2013年的Pivotal Software,是由EMC及VMware最近收购的一些公司合并而成,其中包括了Greenplum(数据库、商业智能)、Cloud Foundry(平台即服务)、SpringSource(Spring框架)、GemStone(分布式内存)等等,产品目标是针对云端运算(PaaS)及巨量数据分析,尤其是面对企业界的用户以及私有云建置。
脚步宜加快 部署在云端
从国际大厂的布局,可以发现现阶段的巨量数据分析技术发展策略,在于引入Hadoop及相关技术,来处理大规模非结构化数据,再配合不断改进的传统数据库、数据仓储、商业智能、分析预测、机器学习等相关技术,并设法提升实时处理的能力,而且都是在云端运算架构上部署实施。
尽管巨量数据价值生态体系统快速形成,且国际大厂积极布局,竞争相对激烈,但也唯有实时掌握巨量数据分析技术,并设法应用在各个垂直产业界中,才能带动信息服务暨软件产业结构优化升级,各国政府正积极投入巨量数据相关计划,我国也应善用优势所在,快速追赶应用服务的商机。