NVIDIA GPU再强化 GPU运算新世纪来临 智能应用 影音
太阳诱电株式会社
参数科技

NVIDIA GPU再强化 GPU运算新世纪来临

  • 赖品如

NVIDIA HGX-2云端服务器平台。
NVIDIA HGX-2云端服务器平台。

NVIDIA GPU技术大会(GPU Technology Conference)全球海外巡回首站于上周在台北完美落幕,现场吸引超过2,200多名科学技术人员、开发者、研究人员、政府与企业领袖以及媒体等共襄盛举。

GTC为人工智能与深度学习技术的顶级盛会,与会者不仅能深入了解 GPU解决方案与超级电脑的最新发展,更重要的是,来自不同领域的专家、开发者以及研究人员能透过此次机会相互交流、激发更多火花。

2018年3月于美国圣荷西所举办的首场GTC吸引超过8,000多人参与,现场展示各种AI应用的最新突破,从医疗、大数据、高效能运算到虚拟实境,以及更多采用NVIDIA技术的先进解决方案应用成果。

NVIDIA于2018年美国GTC发布DGX-2人工智能超级电脑,为AI技术人员梦想中的产品。强大的DGX-2系统是企业级的云端服务器,其设计核心是为满足高效能运算与人工智能领域的发展,内含16个Tensor核心的Tesla V100 GPU,较2017年推出的DGX-1效能提升10倍,同时拥有高达512GB的HBM存储器,配置12个NVSwitch光纤互连技术,为全球首款为AI系统提供运算效能达2 petaFLOPS的单一服务器。DGX-2由NVIDIA DGX软件堆叠以及基于NVSwitch技术所打造的可扩充架构所组成。

在此次专访中,NVIDIA解决方案架构暨工程副总裁Marc Hamilton 分享他对于GTC与台湾科技产业生态系发展的看法,Hamilton带领他的技术工程团队与客户及合作夥伴共同推出基于NVIDIA人工智能与深度学习、专业视觉化以及高效能运算的解决方案。透过多次与生态系夥伴及开发者的交流,Hamilton对于台湾的AI发展步伐相当了解。

AI正着手解决HPC等级的扩充问题

AI技术透过改变我们的工作模式、增加人机互动合作以及开创人工智能所驱动的创新新时代来提升企业整体竞争力。AI解决方案正迅速跃昇成为最具成效的新科技,企业络绎不绝地积极投入AI解决方案的怀抱,而DGX-2躬逢其盛,提供一个可立即采用的解决方案,同时兼顾未来扩充所需的AI效能。

DGX-2是专为AI和HPC作业负载所设计,透过具高度弹性的移转技术来简化AI扩充的速度,并藉由大量深度学习所组成的运算丛集结合虚拟化技术,在共享基础架构环境中大幅改善用户和作业负载隔离。透过加速部署模型以及易于扩充的开放式架构,开发团队以及数据科学家得以投入更多时间来挖掘洞察,并减少建立基础架构的时间。

以气象预报系统为例。进行天气预报的HPC应用需要处理大规模的运算节点,透过基于流体流量、物理学以及其他参数的运算变化,气象预测因应而生。

气象预测的精准度取决于模型与演算法的准确性,尤其是有多少重点数据被呈现出来。进行气象预测需要安排一系列复杂的前、中、后处理作业,且所有的预测必须实时交付。预测应用程序于服务器节点上运作,并透过分布在运算节点上的监控程序接收报告。 

由于HPC系统动则牵涉数以千计的多核心处理器,深度学习技术需要庞大的数据并且彼此交互传递与运算,因此存储器的需求马上水涨船高,许多HPC的应用软件需要将数据直接汇入到GPU的存储器,以获得最大的运算效能,有时存储器不足,耗费在搬运存储器的时间将会降低整体效能,因此当把多个GPU组合来应用时,存储器的大小与GPU彼此间存储器的传输速度将决定一切。

NVSwitch透过NVLink将GPU间的数据吞吐量极大化

存储器是当今深度神经网络(Deep Neural Networks;DNN)中最大的挑战之一。

DNN需要高速的存储器以存取数据、重量参数以及激活,而开发人员正努力面对DRAM设备中有限的存储器带宽,因为AI系统将透过这些存储器带宽存取DNN中大量的重量参数与激活。

NVIDIA在2016年发表基于Pascal架构的Tesla P100 GPU时,发现以前仰赖PCI Express的数据传输通道与技术已经陷入瓶颈,无法负荷多个GPU间的数据吞吐量,于是积极部署GPU间的数据交换与互连新技术,而NVLink技术便应运而生。

透过单一GPU可支持多达6个NVLink连结,可提供各个独立GPU之间更高的带宽,或于低带宽间仍能直接连接到GPU。事实上,NVIDIA的混合式立方网络(Hybrid Mesh Cube)限制了单一NVLink丛集至8个GPU的大小,即便它是一个NUMA设置仍无法让每个GPU皆能看到彼此。利用8个以上的GPU 需要透过InfiniBand连接多个系统,从而失去NVLink与紧密连结的GPU中存储器共享与低延迟的优势。

DGX-2需要将16颗Volta GPU整合至一个服务器架构中,因此NVIDIA推出NVSwitch,其设计旨在利用一个交换器芯片来切换更多不同的 NVLink连接,单一个NVSwitch具备18个全带宽,运算效能是单一Tesla V100 GPU的3倍,而所有的NVSwitch让各GPU能互连。

NVSwitch的目标是为了增加丛集GPU的数量并支持16个GPU配置,而在DGX-2上共设计了12个NVSwitch连接,提供多达216个数据通道的存储器带宽,满足GPU间每秒最大的300GB数据吞吐量,DGX-2较DGX-1系统提升两倍的速度,这个进化让数据科学家与系统开发者得以进行更复杂的AI应用。

有监于TensorFlow以及所有主要的深度学习架构所采用的NVIDIA NCCL(NVIDIA Common Collectives Library),深度学习架构如 TensorFlow不再需要了解服务器中底层的NVLink拓朴结构。

NVIDIA的AI软件堆叠经过全面优化及更新后能支持采用DGX-2及其他DGX系统的开发者,其中包含NVIDIA CUDA、TensorRT、NCCL、cuDNN以及专为机器人所设计的Isaac软件开发套件(SDK)。

Hamilton表示:「TensorRT 4.0为NVIDIA推出的优化推论加速器新版本。目前TensorRT 4.0已整合到TensorFlow 1.7 ,而TensorRT 4.0为当今最受欢迎的深度学习架构之一。」NVIDIA的工程师非常了解自家GPU,透过针对基于GPU平台的优化和高效能runtime,使TensorRT 4.0 软件能加速深度学习推论于各领域应用。

Hamilton表示:「许多TesorFlow的用户将能从最高推论效能中获益,并藉由TensorRT 了解清楚的工作流程。TensorRT能提供FP16与INT8精准的推论内容,以及高达8倍的推论吞吐量(与低延迟目标中的GPU执行相比)。」

在边缘运算领域,TensorRT可以部署在NVIDIA DRIVE自驾车与NVIDIA Jetson嵌入式平台。而每个架构上的深度神经网络都能在数据中心的NVIDIA DGX系统上进行训练,并部署到所有的边缘装置上。透过TensorRT,开发人员能专注于研发新颖的深度学习应用,而不用费心为推论部署进行繁琐的效能调校。

HGX-2云端服务器平台为大型数据中心建立运算参考架构

NVIDIA旗舰级产品DGX-2超级电脑预计于2018年第3季正式量产上市,为了有效整合台湾的服务器ODM大厂、生态系夥伴以及全球主要的服务器国际品牌,NVIDIA于台北举行的GTC发布HGX-2云端服务器平台,NVIDIA自家的DGX-2便是采用HGX-2所设计的旗舰级产品。

服务器相关产业一直是台湾ODM大厂中,始终保持强劲竞争力的产业之一,透过AI领域的发展机会将有助于台湾系统制造商持续前进。NVIDIA工程团队与台湾ODM大厂保持密切的往来合作,协助缩短从设计到生产部署的开发时间。

HGX-2的设计旨在满足HPC与 AI 领域持续成长的应用需求。这些服务器品牌与ODM大厂正在设计基于HGX-2的系统,为超大数据中心打造各种定制化设计的GPU 加速系统。

HGX-2具备两项突破性功能,包含NVIDIA NVSwitch 网状互连架构,能顺畅串连16个内建Tensor Core 的 NVIDIA Tesla V100 GPU。透过HGX-2服务器建构组件,服务器制造商将能打造完整的服务器平台,以满足各种数据中心的需求。

台湾的AI应用与未来

Hamilton这几年与台湾各产业保持密切的互动,针对AI训练计划,预计培育3,000位AI技术开发人员,藉由与台湾科技部的「博士创新之星计划(LEAP)」合作,提供博士后研究的菁英人士相关实习与AI研究专案参与,其中关于智能医疗的专案最令人期待,目前利用AI技术打造疾病预测研究,逐渐开展人工智能技术进入台湾医疗体系。

另外,Hamilton指出AI的影像判读技术用在晶圆检测已有不错的起步,晶圆损坏与错误检测牵涉精密的检测机台以及工程人员长时间的付出,透过AI的自动侦测与判读技术,将可降低检测成本并掌握时效,对台湾的半导体产业有相当大的帮助。此技术目前也逐步扩展至PCB产业的错误侦测与品质检测应用,AI的应用总是带来令人惊喜连连的创新发展。

议题精选-COMPUTEX 2018