AMD祭出MI300能否动摇NVIDIA领导地位 还有待观察 智能应用 影音
太阳诱电microsite
ST Microsite

AMD祭出MI300能否动摇NVIDIA领导地位 还有待观察

  • 陈婉洁DIGITIMES企划

随着AMD在2023年初发布MI300更多产品细节后,面对在AI模型训练市场早已居于龙头地位的NVIDIA,早已在2022年9月发布新一代GPU架构的L40,为AI模型训练市场提供了更为细致的产品选择,AMD要如何憾动NVIDIA的地位,恐怕将是2023年下半需要观察的重点。

众所皆知,在AI芯片市场领域,第一个想到的,通常是GPU大厂NVIDIA(辉达),其原因无它,关键在于NVIDIA利用GPU的平行运算优势,以高性能运算的作法,短时间处理许多复杂的AI运算工作,加上过去自CUDA面市以来所累积的用户基础与生态系统资源,让AI风潮再次吹起之时,让客户开发AI相关的应用时,能得以快速上手,所以也让NVIDIA在AI芯片领域依然屹立不摇。

NVIDIA服务器主要GPU芯片简要规格一览。DIGITIMES摄

NVIDIA服务器主要GPU芯片简要规格一览。DIGITIMES摄

NVIDIA历代服务器GPU产品发展奠定HBM重要性

若是熟悉NVIDIA的GPU产品策略发展走向,可以清楚地知道NVIDIA的作法是先从GPU架构进行创新,像是专门处理AI运算工作的Tensor Core,以及处理光线与影像运算的RT Core(光影追踪核心),再依照服务器、桌机、笔记本电脑乃至于车用等终端应用在运算资源需求上的不同,配置出不同运算单元数量的GPU芯片,再基于这样的基础,从AI的模型训练与事件推论,导入对应的存储器类别。

自Pascal架构时代开始,NVIDIA就已经锁定AI模型训练领域,搭配HBM(高带宽存储器)第二代版本,开发出专用的Tesla P100 GPU,紧接着在Volta、Ampere乃至于Hopper架构,所推出的服务器与数据中心专用的GPU,皆有导入HBM,而2022年5月,以Hopper架构为主的H100更是导入了HBM3,借此提升GPU与存储器之间的数据搬运速度,进一步强化其运算效能。至此,我们几乎可以断言,若要满足AI模型训练的运算工作需求,HBM及其先进封装技术可以说是必要条件。

L40搭载Ada Lovelace架构,AI模型训练芯片阵容更加完整

不过,随着时序推移,NVIDIA在2023年发布另一GPU架构Ada Lovelace,依据NVIDIA官方说法,这两种架构的先后推出,最为主要的原因还是在于满足不同终端应用情境,所以可以看到Ada Lovelace架构已经陆续导入新一代游戏显示卡RTX产品线中,但值得留意的是,针对服务器与数据中心,NVIDIA以Ada Lovelace架构为基础,先后推出了L40与L4,两款GPU都采用台积电5nm制程,所搭配的存储器为GDDR6,其中L40的晶体管数量达763亿,直逼H100的800亿,与此同时,NVIDIA官方也宣称,L40同样也能支持AI的模型训练工作,所以这也是NVIDIA投入AI模型训练以来,推出首款导入GDDR6为主的GPU产品。

宏观而言,H100与L40虽然都能担纲AI模型训练的角色,但两款GPU产品在先天上架构上却是存在着根本的差异性,H100沿续了A100的传统,并未导入RT Core,所以显而易见的是,L40也是第一款能处理影像数据、渲染工作与模拟与模型训练的GPU,这也意味着,未来利用AI运算工作进行拟真生图像与影片生成的应用场景的处理上,采用L40 GPU会更具效率,而H100就能专门处理非图像与影像的数据模型训练工作。甚至在功耗表现上,L40的最大功率输出,仅有300瓦,相较于H100 SXM5版本或是PCIe Gen5版本,都有相对出色的表现。

再换言之,对于AI模型训练领域的对应上,NVIDIA有意利用不同的产品来满足相应的市场区隔,单以此点而言,其产品策略颇有细腻之感。

AMD祭出MI300能否动摇NVIDIA领导地位  仍有待观察

而在近年来,在AI话语权上略为落后的AMD,也在2023年初发布了MI300的技术细节,MI300打破过往MI系列产品的设计架构,为服务器与数据中心领域,首款整合CPU与GPU架构的APU(加速处理器)产品,同时搭载存储器容量达128GB的HBM3,采取3D Chiplet的先进封装作法,晶体管数量为1460亿,相较于前一代的MI 250X,在AI模型训练的效能上,多达八倍之多,显然AMD有意向NVIDIA挑战在AI模型训练芯片市场的龙头地位。

另一方面,由于MI300与NVIDIA未来即将要推出的Grace处理器(为搭载ARM CPU与Hopper架构GPU)的设计概念,并无二致,这也说明,AMD想透过这样的产品试图压制NVIDIA在服务器领域逐渐扩大的影响力,并给予反制。

然而,按理而言,过去NVIDIA早在推出Tesla V100之后,NVIDIA在服务器与数据中心领域的影响力就与日俱增,最主要的原因在于NVIDIA近年不断推出如HGX-1与DGX-1等服务器系统产品,进一步加速了在数据中心的导入速度,再加上先前早已收购完成的Mellanox所拥有的DPU产品线,更深化了NVIDIA服务器系统的运算效能,以及过去自CUDA面市后,其开发环境与函式库皆紧密配合历代GPU架构的演变,因此NVIDIA之所以能在服务器与数据中心领域拥有极高影响力,的确其来有自。

然而,AMD过去在AI系统开发上,CPU与GPU各自分属不同的开发环境与函式库,2022年2月也完成了对Xilinx的收购,所以在AI系统的开发上,如何提供一致性的环境给客户,并且无痛移转?亦或是从系统整合性地思考,让CPU与GPU,亦或是FPGA皆存在的情况下,让客户快速开发所需要的服务器系统,成了AMD的亟需思考之处,不过AMD也在2022年六月的投资人大会上,发布AI Stack 2.0计划,尝试统一CPU、GPU与FPGA的开发环境,但面对NVIDIA早已累积相当雄厚的基础,AMD能否靠MI300攻下NVIDIA所打下的江山,恐怕还有待观察。

议题精选-COMPUTEX 2023