AWS与NVIDIA宣布合作针对生成式AI推出超级电脑基础设施、软件及服务

黎思慧／台北
2023/12/08
分享

亚马逊（Amazon）旗下Amazon Web Services（AWS）与NVIDIA于AWS re:Invent全球盛会上宣布扩大策略合作，将联手推出先进基础设施、软件及服务，推动客户在生成式AI（Generative AI）的创新。

NVIDIA与AWS将挹注NVIDIA与AWS技术的精华，包含NVIDIA新一代GPU、CPU与AI软件的最新多节点系统，以及AWS的Nitro System先进虚拟化与安全平台、Elastic Fabric Adapter（EFA）互连界面和UltraCluster扩充服务，以提供理想的环境来训练基础模型与打造生成式AI应用。

双方保持长久的合作关系，合力推动生成式AI时代。此次扩大合作为使用机器学习（ML）的先驱们提供所需的运算效能，协助发展最尖端的技术。

此次双方合作将大幅加速所有产业应用生成式AI的发展，合作内容包括：

1.AWS成为第1家将配备多节点NVLink技术的NVIDIA GH200 Grace Hopper Superchip超级芯片导入云端环境的云端服务供应商。NVIDIA GH200 NVL32多节点平台运用NVIDIA NVLink与NVSwitch技术连结32个Grace Hopper Superchip超级芯片，组合成一个执行个体。

此平台将以Amazon Elastic Compute Cloud（Amazon EC2）执行个体的型态上线营运，连结Amazon的强大网络（EFA），加上先进虚拟化（AWS Nitro System）与超大规模丛集（Amazon EC2 UltraClusters）的支持，让共同客户能扩充至数千颗GH200超级芯片的规模。

2.NVIDIA与AWS将联手在AWS上推出NVIDIA DGX Cloud这项AI训练即服务（AI-training-as-a-service）方案。此方案将是首个配置GH200 NVL32的DGX Cloud方案，为开发者提供单一执行个体中最多的共享存储器。AWS云端上运行的DGX Cloud将可加速含有超过1万亿参数的尖端生成式AI与大型语言模型的训练。

3.NVIDIA与AWS正合作推动Project Ceiba，联手设计全球最快的GPU驱动AI超级电脑，配备GH200 NVL32与Amazon EFA互连技术的大规模系统由AWS代管，为NVIDIA研发团队提供服务。这部开创先河的超级电脑配置16,384颗NVIDIA GH200超级芯片，能处理65 exaflops速度等级的AI运算，将推动NVIDIA进行全新生成式AI的创新。

4.AWS将再推出3款Amazon EC2执行个体：P5e执行个体配置NVIDIA H200 Tensor Core GPU，瞄准大规模与尖端生成式AI及HPC高效能运算工作负载；以及分别配置NVIDIA L4 GPU与NVIDIA L40S GPU的G6 与G6e执行个体，能运行包括AI微调、推论、绘图、以及影片工作负载等广泛应用。G6e执行个体特别适合用来开发3D工作流程、数码分身、以及其他使用NVIDIA Omniverse的应用，用来连结与打造各种生成式AI的3D应用。

AWSCEOAdam Selipsky表示：「AWS与NVIDIA已经合作超过13年，起初是推出全球首个配置GPU的云端执行个体。现在我们为各种工作负载推出最广泛的NVIDIA GPU解决方案，包括绘图、游戏、HPC高效能运算、机器学习，一直到现在的生成式AI。我们持续运用NVIDIA技术推动创新，结合新一代NVIDIA Grace Hopper Superchip超级芯片与AWS的EFA强大网络、EC2 UltraClusters的超大规模丛集、以及Nitro的先进虚拟化功能，让AWS成为执行GPU运算的最佳云端环境。」

NVIDIA创始人暨CEO黄仁勳表示：「生成式AI正改变各种云端作业的负载，为多元内容创作挹注加速运算动能。我们共同目标是为每个客户提供符合成本效益的先进生成式AI，为此NVIDIA与AWS在整个运算层级上合作，包含AI基础设施、加速程序库与基础模型，以及生成式AI服务。」

AWS云端上运行的NVIDIA软件加速生成式AI的研发

此外，NVIDIA发表在AWS云端上运行的软件，将加速生成式AI的研发。NVIDIA NeMo Retriever microservice微服务提供多项新工具，用来创造高精准度的聊天机器人，以及运用加速语意检索技术的归纳工具。在Amazon SageMaker服务上运行的BioNeMo计划在AWS托管的NVIDIA DGX Cloud上执行，让制药企业运用自己的数据简化与加速模型训练，借此加快新药开发。

AWS云端上运行的NVIDIA软件协助亚马逊为其服务与营运注入创新动能。AWS正运用NVIDIA NeMo架构训练新一代的Amazon Titan大型语言模型。Amazon Robotics也已开始运用NVIDIA Omniverse Isaac打造数码分身，在虚拟化环境中推动自主仓库的自动化、最佳化以及规划，完成之后再部署到真实环境。

加入已选取到「关键字追踪」什麽是「关键字追踪」

AWS与NVIDIA宣布合作 针对生成式AI推出超级电脑基础设施、软件及服务

AWS与NVIDIA宣布合作针对生成式AI推出超级电脑基础设施、软件及服务