智能应用 影音
Microchip
Research 新二类网站广宣

NVIDIA A100登陆AWS象徵加速云端运算未来开端

  • 赖品如台北

Amazon Web Services(AWS)的首个GPU执行个体於十年前亮相,搭载的是NVIDIA M2050。当时以CUDA为基础的应用程序主要集中在加速科学模拟,而人工智能(AI)和深度学习的兴起还遥遥无期。此後AWS又陆续加入稳定的云端GPU执行个体,包括K80(p2)、K520(g3)、M60(g4)、V100(p3/p3dn)和T4(g4)。随着全新P4d执行个体正式上路,AWS将在最新NVIDIA A100 Tensor Core GPU的支持下,为加速运算领域的下一个十年打稳基础。

全新P4d执行个体为机器学习训练与高效能运算应用程序,提供AWS上采用GPU之最高效能、最具成本效益的平台。与缺省的FP32精准度相比,使用FP16的执行个体训练机器学习模型的时间缩短了三倍,使用TF32进行训练的时间缩短了六倍。这些执行个体亦提供了极为卓越的推论表现。上个月,NVIDIA A100 GPU於MLPerf Inference基准测试项目中所向披靡,其效能较CPU快上237倍。

每个P4d执行个体皆搭载8个NVIDIA A100 GPU,客户可以透过AWS UltraClusters 使用AWS Elastic Fabric Adaptor (EFA),以及提供可扩展高效能储存装置的Amazon FSx,每次依需求调整规模以取得超过4,000个GPU。P4d提供400Gbps网络,并且使用NVIDIA的NVLink、NVSwitch、NCCL及GPUDirect RDMA等技术,进一步加速处理深度学习训练的作业负载。

EFA上的NVIDIA GPUDirect RDMA在服务器之间将数据从GPU传递到 GPU,无需通过CPU和系统存储器,确保低延迟的网络。此外,许多 AWS服务都支持P4d执行个体,包括Amazon Elastic Container Services、Amazon Elastic Kubernetes Service、AWS ParallelCluster及Amazon SageMaker。P4d还能使用NGC所提供的各种经过优化的容器化软件,包括高效能运算应用程序、AI架构、预先训练模型、Helm chart,以及TensorRT和Triton推论服务器等推论软件。

现在可於美国东部和西部地区使用P4d执行个体,很快地将会开放给其他地区使用。用户能够以随需执行个体(On-Demand)、Savings Plans、预留执行个体(Reserved Instance)或Spot执行个体等方式来购买。GPU云端运算的第一个十年,已经将超过100 exaflops 的 AI运算能力带入市场。现在有了NVIDIA A100 GPU支持的Amazon EC2 P4d执行个体,将为GPU云端运算领域的下一个十年开创美好的开端。NVIDIA与AWS携手打造许多应用程序,并不断突破AI的发展。