巨量数据的机会与挑战 智能应用 影音
EVmember
ST Microsite

巨量数据的机会与挑战

  • DIGITIMES企划

台湾大学副教授 洪士灏.jpg
台湾大学副教授 洪士灏.jpg

迎接巨量数据时代的来临,台湾要如何运用既有优势,同时克服将到来的挑战呢?台湾大学副教授洪士灏指出,硬软件整合是台湾的机会,但业界的思维必须转型,要从纯硬件的代工制造业,转为有能力针对特定应用,产生最佳的硬软件整合方案,而这也正是台湾面对巨量数据时代的主要挑战。

洪士灏以云端运算为例指出,尽管台湾产业和政府信誓旦旦,要做出成绩,但这几年在台湾并没有明显成果,其中一个原因就是因为用旧思维做高科技,包括不懂软件,以至于只会做硬件,软件赚不了钱;太依赖代工、卖硬件,不会做服务;只会人云亦云、依样画大饼,要靠政府补贴才有竞争力。

洪士灏强调,云端运算虽然已经帮巨量数据铺好路,但要应用巨量数据,需要三种人才,分别是能够解决具体问题的领域专家、理解巨量数据方法论的数据科学家,以及开发系统和应用程序的电脑专家。此外,还需要两种技术,分别是能够巨量数据分析及巨量数据系统。

参考国外案例,为了在巨量数据时代抢得先机,有的是比数据量大,如Google、Facebook、Amazon等,但多半以数字、文字、图片为主,如何蒐集与运用声音、影像、专业知识,便成为其中的关键;另一种方式,则是设立巨量数据研究机构,培养设计学程、整合跨领域人才等;也有企业透过设置比武擂台的方式,提供数据或问题,用奖金为诱因,吸引专家投入;或是研发与贩售巨量数据技术。

至于台湾面对巨量数据时代的机会与挑战,洪士灏认为,目前还有很多尚未利用巨量数据解决的问题,台湾业界不要好高骛远,应该要找寻适合耕耘的题目,但业界必须要由OEM/ODM,转型为附加价值更高的解决方案提供业者,利用硬件设计的优势,优化巨量数据的的软件及应用。

但台湾目前的巨量数据高级人才相当短缺,洪士灏强调,各先进国家都在加强训练人才,因此一定要提供高薪机会,才能吸引人才;而因为巨量数据的技术层次高,必须让大学发挥创新与整合的功能,寻求跨领域团队合作的可能。

值得注意的是,由于应用和数据的价值日益提高,想要取得并不容易,反观系统软件很多都已开放原始码,很大方的提供给识货的人来用。洪士灏认为,台湾需要组一个团队来创造扩大价值,善用人家的技术和软件,学会如何建构系统,并找寻高价值的应用,把这些进阶的系统软件和硬件整合在一起,将应用好好做出来,就是台湾的机会。

但洪士灏也指出,整合难度非常高,因为效能好坏差很多,一看就明白,必须了解应用的特性,如数据量及存取模式,或是解决关键的效能瓶颈,如磁碟机、网络及处理机等。

了解巨量数据的应用特性更是重要。洪士灏指出,要提高处理效率,必须善用分散式处理(distributed processing)与 computation-data co-location。由多台机器组成丛集,提高运算量和储存数据量;装置分散式档案系统(Distributed filesystem)如HDFS;尽可能在同一节点读取数据、计算、储存结果;在每个节点提供足够的运算能量;利用高速网络进行不同节点间必要的数据交换等。

值得注意的是,巨量数据的每个应用都有其特性,必须全系统面进行效能分析,才能达到预期目标。洪士灏以分类(Sort)为例,储存及网络都可能是瓶颈,但微软却在2012年创下1分钟内完成1.47TB的世界记录,而且使用的机器是之前的记录保持人雅虎的四分之一,却只要三分之一的查找时间。

洪士灏认为,巨量数据的读写常常都是瓶颈,过去都是用更多的磁碟、更多的交换器来解决,但也导致耗电等问题。如果能把数据放在存储器,不但性价比要比放到磁碟上省很多,而且可以省不少时间,尤其是数据如果是在TB等级,放在存储器会比放在磁碟上,来得更有意义。此外,异质运算值得重视,甚至连GPU也可拿来做巨量数据分析。

其实目前仍有许多巨量数据分析的需求,如医学影像分析、异质运算系统软件与效能工具、建构台大计资中心高效能巨量数据丛集、国科会巨量数据先导计划、植物工厂及网安监控与数据分析,都是巨量数据分析可以发挥的空间。

洪士灏指出,巨量数据的应用或计算其实并不复杂,主要的挑战是数据量太大,如果能设计出加速的方法,就会很有价值。台湾产业其实对软硬件整合并不陌生,在终端设备上也有表现不错的业者,但对于巨量数据的应用与研究方才起步,缺乏跨领域的团队与经验,唯有改变想法,用软件研发的思维,才能掌握先机,迎接巨量数据的挑战。