人工智能为NVIDIA带来惊人的成长动能 智能应用 影音
东捷信息
DForum0522

人工智能为NVIDIA带来惊人的成长动能

  • 赖品如台北

人工智能为NVIDIA带来惊人的成长动能。
人工智能为NVIDIA带来惊人的成长动能。

在2012年,Google宣布Andrew Ng(吴恩达)先生和他的Google Brain计划团队利用多台服务器重复播放数小时的YouTube影片,成功地让机器系统学会如何识别猫,引爆了人工智能(AI)的全新进展,并将深度学习(deep learning)带到一般大众面前。

这是AI产业的重大里程碑,深度神经网络(DNN)已被用来发展机器学习系统,可望为人工智能与巨量数据分析带来革命性的改变,并为语音识别和翻译、医疗分析和自驾车等高难度应用的发展带来曙光。此外,它也为市场开创出新的运算模式,而此新模式恰能助长NVIDIA在深度学习产业中取得先机并扮演要角,正如NVIDIA共同创始人暨CEO黄仁勳所说,此趋势将能为公司带来「惊人」的成长。

根据NVIDIA最近一季的财报,其数据中心营收创下1.43亿美元新高,年成长率达63%(相较之下,英特尔的年成长率仅9%),与上一季相比则是增加了47%,充分反映出深度学习的庞大成长动能。

自NVIDIA于3年前开始投入深度学习以来,数家科技巨头已成为最快速的技术采用者。现今NVIDIA GPU加速了全球每个主要深度学习架构的进展,包括专为人工智能发展的IBM Watson和Facebook的Big Sur服务器都采用NVIDIA技术,而其GPU也已内建于微软、亚马逊、阿里巴巴和百度等业界龙头的AI平台中,作为训练和实时推论之用。Twitter最近也表示,将采用NVIDIA GPU来协助使用者从每天转载的数百万张照片与影片中找出最需要的内容。

如今随着全球首座以NVIDIA全新Pascal GPU架构为基础,专为深度学习所开发的系统NVIDIA DGX-1的推出,学术机构与重量级业者对深度学习系统的接受度将大幅提升,大型企业的布署也将持续增加。

神经网络

当Andrew Ng参与Google Brain计划开发机器学习技术时,他发现,传统的程序编码如if-then命题以将所有影像中所有物件的所有特性都分类,对于Google所拥有的庞大影片、影像及声音数据库而言,这将会是一项费力费时的任务。因此,他决定利用一种名为深度神经网络(DNN)的人工智能演算法,透过训练电脑系统内的数据来运作而无需撰写传统的电脑程序码。

对神经网络来说,比起靠撰写程序来确认一辆自驾车在路上看到的是什麽,或是确认X光影像是什麽,研究人员建构了一个架构,并馈入许多未标记的数据。在Google Brain这个例子中,它使用了1,000万张的YouTube视讯画面。透过计算输入数据的权重总和,此网络架构能转换输入数据,并利用非线性函数来进行转换,以计算出一个中间状态。这些步骤结合称为「神经层」,透过重复这些步骤,人工神经网络便能学习非线性特性的许多层次,在最后一层中结合所有的信息,并做出预测。

然而,神经网络的主要问题是需耗费大量的运算资源,而且如果有太多的神经元,成本将非常昂贵。因此,一直以来大部分的神经网络都仅包含100~1,000万个连结点,然而Ng希望能利用超过10亿个连结点。虽然他重新思考了方程序的软件层面,想利用DNN使其更有效率,但受限于传统的硬件做法,只能利用Google数据中心的2,000台服务器(16,000个核心,耗电60万瓦),耗费数百万美元打造出一个分散式运算基础架构来训练神经网络。

不久之后,研究人员便发现,因为神经网络在核心是以矩阵(非线性)和浮点运算为基础,因此在本质上是非常适合利用GPU来处理且GPU最高可达3,500个平行的CUDA核心,研究人员甚至没想到GPU对此应用有如此优异的表现。根据一项后续进行的实验显示,透过结合GPU与现成的硬件设备,Google神经网络的训练工作仅需要3台、共内建12颗GPU的服务器便能完成。

这是深度学习非常重要的转折点,市场开始大幅成长,而且,深度学习系统不再遥不可及。目前,全球仅有少数几家公司能拥有2,000台服务器与60万瓦电源的资源投入深度学习计划。但如果仅需3台服务器,花费约5万美元的成本,那几乎每一家大型企业的研究中心都能负担。目前客户已快速开始在数据中心采用GPU的解决方案,或在办公室采用简易的解决方案,基本上,连个人也能购买GeForce来了解深度学习系统,或是存取云端中的GPU资源。

GPU不仅省钱,还能让研究人员的生产力大为提升。如上述所提,深度神经网络的训练需透过输入数十万张的影像来进行,这样的训练十分耗时。有个名为AlexNet的影像识别神经网络采用NVIDIA TITAN X(售价不到1,000美元),3天内便能利用ImageNet数据库中的120万张影像来完成训练工作,而若是采用16核心CPU,则需耗费超过40天的时间。

这些都是2015年时的大事,但这样的结果黄仁勳先生并不感到满意。他要求公司的工程团队提出解决方案,让AlexNet的训练时间能够再缩短十倍。根据摩尔定律,效能并无法在一年内提升10倍。但今年的NVIDIA GTC(GPU技术大会)上,DGX 1仅需2个小时就完成了AlexNet的训练工作。充分展现出黄仁勳先生的承诺,希望能在后摩尔定律时代推动运算技术的加速发展,因此建构了新的模式来提升生产力与效率。GPU运算不仅是新的运算模式,而且正朝主流应用发展。

因此,不是只有像Google和百度这类的科技巨头才能发挥深度学习的效益。例如,现在已有19家汽车制造商在硅谷设立研究实验室。在医疗影像产业,每家大型企业都已成立了类似的巨量数据计划,他们都采用了NVIDIA解决方案。光是2015年,NVIDIA就已与3,500家客户讨论深度学习计划,有兴趣的业者横跨各种不同的产业。

NVIDIA获得青睐的原因在于,其GPU是深度学习这类大量平行运算的理想选择,同时该公司也最佳化了整个系统平台的建置,从架构到设计、系统、中介软件、系统软件、一直到与全球开发人员的共同合作,整体体验更优化,效能也最佳化。

例如最近推出的DGX-1是第一款专为深度学习设计的系统,全面地整合了硬件、深度学习软件、以及开发工具,能够协助开发人员快速、轻松地进行布署。

此整合式系统采用了8颗以Pascal GPU架构为基础的NVIDIA Tesla P100 GPU。Pascal是首款专为深度学习应用所全新开发的GPU平台,其效能远远超越了电脑绘图。每个Tesla P100 GPU都配备了16GB存储器,此系统最高可提供170 teraflop的半精度(FP16)峰值效能,相当于250颗CPU服务器的处理能力。

DGX-1的另一个突破性技术是让效能与实用性最大化,其中包括NVIDIA NVLink高速互连,以确保最高的应用程序可扩展性。GPU采用16纳米FinFET制程技术制造,是目前面积最大、功能最强大的16纳米芯片,在600mm2面积中包含了高达153亿个晶体管,可提供前所未有的能源效率。

全球主要的研究中心都将于本月收到第一台DGX-1服务器,客户名单包括多所知名大学,如史丹福、柏克莱、纽约大学、多伦多大学、以及香港大学。美国麻州总医院也将是首批采用DGX-1的客户之一。这家医院开始了一项AI技术计划,希望能利用其数据库中约100亿笔的医疗影像,来改善疾病的侦测、诊断、治疗与管理。DGX-1就是专为支持这类研究计划设计的。

身为一套整合式解决方案,NVIDIA DGX-1还具备了完整的深度学习软件套件,包含NVIDIA深度学习GPU训练系统(DIGITS)、新发布的NVIDIA CUDA深度神经网络函式库(cuDNN)第5版、以及可用来设计DNN的GPU加速元件库。它还包含了多种广泛使用的深度学习架构的最佳化版本,包括:Caffe、Theano和Torch。

过去3年来,NVIDIA看到了深度学习技术的快速转变,连软件也不例外。大部分采用的软件都是开源的,虽然百度和Google等科技巨头采用开源软件不会有任何问题,但对汽车制造商与医院等传统业者来说,情况或许不是如此。因此,NVIDIA将为DGX-1提供开源软件的维护与修补服务。在其数据中心中可安装一个系统装置与NVIDIA的云端相连。当NVIDIA提供新的修补程序时,客户能找到其深度学习软件,并下载最新的最佳化版本。在过程中,客户所有的数据都能确保安全性且绝对不会流出数据中心。

随着深度学习系统的快速进展,NVIDIA看到了它的布署不仅止于一或两家客户,而是几乎遍布全球每个国家的超大型数据中心。黄仁勳先生表示,这是非常重要的发展,而且绝不单是短期现象而已。显然,这个世界所处理的数据量只会不断地持续成长!


关键字
议题精选-COMPUTEX 2016