AMD祭出MI300能否动摇NVIDIA领导地位还有待观察

陈婉洁／DIGITIMES企划
2023/06/02
分享

随着AMD在2023年初发布MI300更多产品细节后，面对在AI模型训练市场早已居于龙头地位的NVIDIA，早已在2022年9月发布新一代GPU架构的L40，为AI模型训练市场提供了更为细致的产品选择，AMD要如何憾动NVIDIA的地位，恐怕将是2023年下半需要观察的重点。

众所皆知，在AI芯片市场领域，第一个想到的，通常是GPU大厂NVIDIA（辉达），其原因无它，关键在于NVIDIA利用GPU的平行运算优势，以高性能运算的作法，短时间处理许多复杂的AI运算工作，加上过去自CUDA面市以来所累积的用户基础与生态系统资源，让AI风潮再次吹起之时，让客户开发AI相关的应用时，能得以快速上手，所以也让NVIDIA在AI芯片领域依然屹立不摇。

NVIDIA服务器主要GPU芯片简要规格一览。DIGITIMES摄

NVIDIA历代服务器GPU产品发展奠定HBM重要性

若是熟悉NVIDIA的GPU产品策略发展走向，可以清楚地知道NVIDIA的作法是先从GPU架构进行创新，像是专门处理AI运算工作的Tensor Core，以及处理光线与影像运算的RT Core（光影追踪核心），再依照服务器、桌机、笔记本电脑乃至于车用等终端应用在运算资源需求上的不同，配置出不同运算单元数量的GPU芯片，再基于这样的基础，从AI的模型训练与事件推论，导入对应的存储器类别。

自Pascal架构时代开始，NVIDIA就已经锁定AI模型训练领域，搭配HBM（高带宽存储器）第二代版本，开发出专用的Tesla P100 GPU，紧接着在Volta、Ampere乃至于Hopper架构，所推出的服务器与数据中心专用的GPU，皆有导入HBM，而2022年5月，以Hopper架构为主的H100更是导入了HBM3，借此提升GPU与存储器之间的数据搬运速度，进一步强化其运算效能。至此，我们几乎可以断言，若要满足AI模型训练的运算工作需求，HBM及其先进封装技术可以说是必要条件。

L40搭载Ada Lovelace架构，AI模型训练芯片阵容更加完整

不过，随着时序推移，NVIDIA在2023年发布另一GPU架构Ada Lovelace，依据NVIDIA官方说法，这两种架构的先后推出，最为主要的原因还是在于满足不同终端应用情境，所以可以看到Ada Lovelace架构已经陆续导入新一代游戏显示卡RTX产品线中，但值得留意的是，针对服务器与数据中心，NVIDIA以Ada Lovelace架构为基础，先后推出了L40与L4，两款GPU都采用台积电5nm制程，所搭配的存储器为GDDR6，其中L40的晶体管数量达763亿，直逼H100的800亿，与此同时，NVIDIA官方也宣称，L40同样也能支持AI的模型训练工作，所以这也是NVIDIA投入AI模型训练以来，推出首款导入GDDR6为主的GPU产品。

宏观而言，H100与L40虽然都能担纲AI模型训练的角色，但两款GPU产品在先天上架构上却是存在着根本的差异性，H100沿续了A100的传统，并未导入RT Core，所以显而易见的是，L40也是第一款能处理影像数据、渲染工作与模拟与模型训练的GPU，这也意味着，未来利用AI运算工作进行拟真生图像与影片生成的应用场景的处理上，采用L40 GPU会更具效率，而H100就能专门处理非图像与影像的数据模型训练工作。甚至在功耗表现上，L40的最大功率输出，仅有300瓦，相较于H100 SXM5版本或是PCIe Gen5版本，都有相对出色的表现。

再换言之，对于AI模型训练领域的对应上，NVIDIA有意利用不同的产品来满足相应的市场区隔，单以此点而言，其产品策略颇有细腻之感。

AMD祭出MI300能否动摇NVIDIA领导地位仍有待观察

而在近年来，在AI话语权上略为落后的AMD，也在2023年初发布了MI300的技术细节，MI300打破过往MI系列产品的设计架构，为服务器与数据中心领域，首款整合CPU与GPU架构的APU（加速处理器）产品，同时搭载存储器容量达128GB的HBM3，采取3D Chiplet的先进封装作法，晶体管数量为1460亿，相较于前一代的MI 250X，在AI模型训练的效能上，多达八倍之多，显然AMD有意向NVIDIA挑战在AI模型训练芯片市场的龙头地位。

另一方面，由于MI300与NVIDIA未来即将要推出的Grace处理器（为搭载ARM CPU与Hopper架构GPU）的设计概念，并无二致，这也说明，AMD想透过这样的产品试图压制NVIDIA在服务器领域逐渐扩大的影响力，并给予反制。

然而，按理而言，过去NVIDIA早在推出Tesla V100之后，NVIDIA在服务器与数据中心领域的影响力就与日俱增，最主要的原因在于NVIDIA近年不断推出如HGX-1与DGX-1等服务器系统产品，进一步加速了在数据中心的导入速度，再加上先前早已收购完成的Mellanox所拥有的DPU产品线，更深化了NVIDIA服务器系统的运算效能，以及过去自CUDA面市后，其开发环境与函式库皆紧密配合历代GPU架构的演变，因此NVIDIA之所以能在服务器与数据中心领域拥有极高影响力，的确其来有自。

然而，AMD过去在AI系统开发上，CPU与GPU各自分属不同的开发环境与函式库，2022年2月也完成了对Xilinx的收购，所以在AI系统的开发上，如何提供一致性的环境给客户，并且无痛移转？亦或是从系统整合性地思考，让CPU与GPU，亦或是FPGA皆存在的情况下，让客户快速开发所需要的服务器系统，成了AMD的亟需思考之处，不过AMD也在2022年六月的投资人大会上，发布AI Stack 2.0计划，尝试统一CPU、GPU与FPGA的开发环境，但面对NVIDIA早已累积相当雄厚的基础，AMD能否靠MI300攻下NVIDIA所打下的江山，恐怕还有待观察。

加入已选取到「关键字追踪」什麽是「关键字追踪」

议题精选－COMPUTEX 2023

AMD祭出MI300能否动摇NVIDIA领导地位 还有待观察

AMD祭出MI300能否动摇NVIDIA领导地位还有待观察