从数据科学看云端应用趋势 智能应用 影音
Microchip Q1
Event

从数据科学看云端应用趋势

  • DIGITIMES企划

硕源信息股份有限公司 CEO 张家齐
硕源信息股份有限公司 CEO 张家齐

在云端应用的领域中,巨量数据分析早已是一门显学。硕源信息CEO张家齐指出,数据科学目前仍是一个新的领域,如何选择数据分析的解决方案,如何跟数据分析业者沟通,以及如何分辨解决方案是否真的能解决问题,其实都与云端应用息息相关。

把探索数据的本质,当成是最喜欢的事的张家齐,首先对什麽是「数据科学」,提出他个人的看法。张家齐表示,很多人都以为,数据科学是由数学及统计的知识、黑客(Hacking)的技能、特定产业领域的知识以及实务经验交集而成,但其实「数据」及「科学」都必须加以定义。

什麽是「数据」?张家齐以股票族每天看的行情变化或线图指出,这些股市信息,其实对股票族而言,就是数据,但这些数据是否就能进行分析,又是另一个议题了。而对音乐家而言,声音的波形图,就是音乐家心目中的数据,只要看到波型图,心中自然就会「听」到音乐。

但张家齐指出,如果只是「看」数据,数据使用者的心中,就会有感受吗?就是要先对数据产生感受,才可能对于进一步的数据分析产生兴趣。而最重要的数据格式,张家齐认为,不论是文字、声音、影像或是任何一种形式,都必须先转变成数据表格的形式,才能够加以分析。

张家齐强调,选择用什麽方式查询数据,会影响分析后的正确性,如何察觉数据盲点,是很重要的。例如美食网站常常会撰写推荐文章,但张家齐认为,食物的美味,其实是一种味觉,而非文字或图片,而且许多美食文可能只是广告,所以美食文章中的「很好吃」,从数据分析的角度来看,并不是真正的「很好吃」,但如果用文字来分析数据,确实可能会用「好吃」之类的文字,去寻找那些食物才是美味的,自然就不可能得到正确的答案。

因此,在进行数据分析之前,张家齐建议一定要跟客户深度沟通,设法弄清楚有那些数据可供参考,如想要分析那些食物是美味的,应该是要掌握温、湿度或调味的酸甜比等信息,才能做出比分析文字更精准的结果。

此外,数据其实也是一种生活的状态。张家齐指出,数据本来就已经存在,就算你不蒐集、不纪录,也不会影响数据本来存在的性质。因此,在进行数据分析前,张家齐建议要不断的提醒自己,会不会还有什麽额外的信息,没有掌握到,有没有遗漏可能影响分析结果的数据。

至于科学的定义,张家齐认为,科学应该是一种可重复、重视验验证的学科,而且是可观测,重视量化,讲究的是「眼见为凭(To see is to believe)」,并以「数学」为其主要沟通语言。

张家齐指出,科学通常无法脱离生活直觉,数据科学也不例外。即使你没有发展数据科学的能力,但也一定要有评价的能力,千万不要放弃自己的直觉。事实上,如何判断两个数据之间的差距有多少,往往就是数据科学最重要的观念。

因此,「问问题」及「找答案」也就成为数据科学中最重要的两个问题。但张家齐指出,在数据科学的领域中,问题有两种,一个是真实世界会问的问题,往往要在实战中才学得到,另一个是机器或电脑会问的问题,如果弄错问题,自然就无法找到正确的答案。

张家齐指出,标准的数据分析流程,依序是提出问题、蒐集数据、将数据矢量化(问题数学化)、将生活问题,转换成数个数据问题或数学问题、解决数学问题,最后则是验证生活解答。

张家齐认为,任何人都可以学着提出问题及蒐集数据,但如果将数据矢量化、转换及解决问题,可以交由数据分析专家来处理,但在验证生活解答时,一定要亲力而为,如果分析结果违反自己的直觉,也要勇敢地提出来,而非全盘接受数据分析的结果。

而在实际应用时,如何问「好」的问题,始终是一个值得思考的重点。假设已经针对所需要蒐集的数据,建立了一个分类器,如何让数据都分对?又如何让数据群中只有所需要蒐集的数据?就攸关数据分析结果的品质了。

而将数据分析应用在云端应用上,张家齐以「推荐系统」为例指出,第一种是大量使用tensor completion技术,不但计算的数据量非常大,而且用来分析数据的机器往往所费不赀,通常是大企业在使用;第二种是使用各种local approximation系统,只能设法得到逼近前者的结果,但成本比第一种要来得低。

张家齐强调,不论是在学习任何事物,「观察直觉」及「实作技术」很重要,只有深刻的直觉,才可以驾驭艺术般的实作技术;同样的,也只有在透彻了解各种实作技术的缺点与限制时,才能在许多的碰撞与挫折的经验中,淬链出深刻的直觉与观察力。