AWS与NVIDIA宣布合作 针对生成式AI推出超级电脑基础设施、软件及服务
亚马逊(Amazon)旗下Amazon Web Services(AWS)与NVIDIA于AWS re:Invent全球盛会上宣布扩大策略合作,将联手推出先进基础设施、软件及服务,推动客户在生成式AI(Generative AI)的创新。
NVIDIA与AWS将挹注NVIDIA与AWS技术的精华,包含NVIDIA新一代GPU、CPU与AI软件的最新多节点系统,以及AWS的Nitro System先进虚拟化与安全平台、Elastic Fabric Adapter(EFA)互连界面和UltraCluster扩充服务,以提供理想的环境来训练基础模型与打造生成式AI应用。
双方保持长久的合作关系,合力推动生成式AI时代。此次扩大合作为使用机器学习(ML)的先驱们提供所需的运算效能,协助发展最尖端的技术。
此次双方合作将大幅加速所有产业应用生成式AI的发展,合作内容包括:
1.AWS成为第1家将配备多节点NVLink技术的NVIDIA GH200 Grace Hopper Superchip超级芯片导入云端环境的云端服务供应商。NVIDIA GH200 NVL32多节点平台运用NVIDIA NVLink与NVSwitch技术连结32个Grace Hopper Superchip超级芯片,组合成一个执行个体。
此平台将以Amazon Elastic Compute Cloud(Amazon EC2)执行个体的型态上线营运,连结Amazon的强大网络(EFA),加上先进虚拟化(AWS Nitro System)与超大规模丛集(Amazon EC2 UltraClusters)的支持,让共同客户能扩充至数千颗GH200超级芯片的规模。
2.NVIDIA与AWS将联手在AWS上推出NVIDIA DGX Cloud这项AI训练即服务(AI-training-as-a-service)方案。此方案将是首个配置GH200 NVL32的DGX Cloud方案,为开发者提供单一执行个体中最多的共享存储器。AWS云端上运行的DGX Cloud将可加速含有超过1万亿参数的尖端生成式AI与大型语言模型的训练。
3.NVIDIA与AWS正合作推动Project Ceiba,联手设计全球最快的GPU驱动AI超级电脑,配备GH200 NVL32与Amazon EFA互连技术的大规模系统由AWS代管,为NVIDIA研发团队提供服务。这部开创先河的超级电脑配置16,384颗NVIDIA GH200超级芯片,能处理65 exaflops速度等级的AI运算,将推动NVIDIA进行全新生成式AI的创新。
4.AWS将再推出3款Amazon EC2执行个体:P5e执行个体配置NVIDIA H200 Tensor Core GPU,瞄准大规模与尖端生成式AI及HPC高效能运算工作负载;以及分别配置NVIDIA L4 GPU与NVIDIA L40S GPU的G6 与G6e执行个体,能运行包括AI微调、推论、绘图、以及影片工作负载等广泛应用。G6e执行个体特别适合用来开发3D工作流程、数码分身、以及其他使用NVIDIA Omniverse的应用,用来连结与打造各种生成式AI的3D应用。
AWSCEOAdam Selipsky表示:「AWS与NVIDIA已经合作超过13年,起初是推出全球首个配置GPU的云端执行个体。现在我们为各种工作负载推出最广泛的NVIDIA GPU解决方案,包括绘图、游戏、HPC高效能运算、机器学习,一直到现在的生成式AI。我们持续运用NVIDIA技术推动创新,结合新一代NVIDIA Grace Hopper Superchip超级芯片与AWS的EFA强大网络、EC2 UltraClusters的超大规模丛集、以及Nitro的先进虚拟化功能,让AWS成为执行GPU运算的最佳云端环境。」
NVIDIA创始人暨CEO黄仁勳表示:「生成式AI正改变各种云端作业的负载,为多元内容创作挹注加速运算动能。我们共同目标是为每个客户提供符合成本效益的先进生成式AI,为此NVIDIA与AWS在整个运算层级上合作,包含AI基础设施、加速程序库与基础模型,以及生成式AI服务。」
AWS云端上运行的NVIDIA软件加速生成式AI的研发
此外,NVIDIA发表在AWS云端上运行的软件,将加速生成式AI的研发。NVIDIA NeMo Retriever microservice微服务提供多项新工具,用来创造高精准度的聊天机器人,以及运用加速语意检索技术的归纳工具。在Amazon SageMaker服务上运行的BioNeMo计划在AWS托管的NVIDIA DGX Cloud上执行,让制药企业运用自己的数据简化与加速模型训练,借此加快新药开发。
AWS云端上运行的NVIDIA软件协助亚马逊为其服务与营运注入创新动能。AWS正运用NVIDIA NeMo架构训练新一代的Amazon Titan大型语言模型。Amazon Robotics也已开始运用NVIDIA Omniverse Isaac打造数码分身,在虚拟化环境中推动自主仓库的自动化、最佳化以及规划,完成之后再部署到真实环境。