厦门商务局
books

扎稳人才培育根基 助长产业界资料分析能量

  • 魏淑芳
身兼中华R软件学会、台湾资料科学与商业应用协会理事长的邹庆士指出,近5年来两会累计办理的训练课程突破200场,为台湾培育诸多大数据种子人才。

DIGITIMES企划

工欲善其事,必先利其器,任何人要挖掘Big Data背后涵义,都必须懂得运用一些程序语言,例如深受资料科学界喜爱的R与Python,即是不可不识的关键项目。

回顾5年前,台湾企业或学界对这些大数据程序语言所知有限,症结在于英文接口产生学习阻碍;为此一群有志推动大数据、资料科学商业应用的人,决定推动汉化教学与培训工作,遂在2012年成立中华R软件学会,并在隔年(2013)成立台湾资料科学与商业应用协会。

前述两会,算是台湾最早设立的Big Data推动组织,而国立台北商业大学信息与决策科学研究所教授暨资料科学应用研究中心主任邹庆士博士,同时担任两会的理事长。他指出,5年来他们始终基于培育本地资料分析人才的目标而默默努力,与资策会、工研院、台北市计算机商业同业公会、金融研训院等多个财团法人合作开办训练课程,亦多次协助知名企业进行内训,迄今累计训练次数超过200场,为台湾催生许多大数据种子人才。

2015及2016年期间,两会先后与计算机技能基金会、资策会合作,催生两套关于Big Data的认证,前者名为「企业电子化资料分析师」(EEDA),后者是属于经济部产业人才能力监定(iPAS)一环的「巨量资料分析师」,皆由两会统筹负责规划评量基准,及订定考科与题库。

邹庆士透露,现正积极萃取历次课程讲义精华,投入「资料处理与分析实践」教材编制,并以「穿透大数据之R与Python资料导向程序设计」为教材主轴;一旦制作完成,将与两项认证相结合,帮助人们更有效率养成大数据分析职能,有能力理解并准备资料、进行资料分析与建模,并可参与系统部署及商业应用。

值得一提,邹庆士期望透过一次次课程,不仅传授R与Python之资料处理、分析、探勘与视觉化等实用技能,也一并传达正确认知;这些鞭辟入里的概念,多能切中一般人对Big Data的思维误区,产生导正效果。

要做好大数据  需懂得去芜存菁

首先他认为把Big Data翻译为「巨量资料」不甚理想,只因Big Data的真义在于从伪、杂、多的资料找出关联,此过程涉及的方法与工具,可称为「利害或关键的资料分析技术」,此处所谓的利害或关键,须经由去芜存菁而来,分析时务必舍弃赘余或无关属性,采用去杂讯后的精简资料,非一味追求数量巨大的资料。

换言之,只要能满足企业实际需求,小量资料分析照样深具价值。若以经常被提及的4个V来看,先后顺序应是真实性(Veracity)、多样性(Variety)、速度(Velocity),最后才是资料量(Volume),巨量资料一词容易让人搞错重点,亦使资料分析一事显得太过沈重。

邹庆士特别强调Divide & Conquer观念,主张做大数据分析,必须懂得切分、再各个击破。统计学界有一句话,所有模型都是假的,因为仅是真实世界的抽象表征,但有些模型仍是有用的,所以人们必须找到能解决当下情境的可用模型,此模型务求简单明确,资料前处理(资料理解与去杂讯)是关键。

若疏于做好资料去芜存菁的处理,只求将包山包海巨量数据通通纳入计算,反倒会因参数过多,出现平庸征兆,形成「垃圾进垃圾出」的遗憾结果。

国外专家曾言,从事作业研究(Operations Research;OR)领域的人,相当适合当资料科学家,因为他们懂得如何运用数学工具与模型来解决实际问题。而OR涵盖了作业研究应用、作业研究科学与作业研究数学等三个重要环节,显见企业欲布建资料分析团队时,除需配置深谙数学统计、计算机科学的人才,也务必纳入领域专家,这点同样值得企业留意。

更多关键字报导: 巨量资料(Big Data)