NVIDIA Blackwell Ultra在全新MLPerf Inference基准测试中树立新标竿
推论效能至关重要,因为它会直接影响人工智能(AI)工厂的经济效益。AI工厂基础设施的输送量越高,就能以高速产生更多词元(token),进而提高营收、降低总拥有成本(TCO),并提升整体系统的生产力。
采用NVIDIA Blackwell Ultra架构的NVIDIA GB300 NVL72机架规模系统,在NVIDIA GTC大会首度亮相至今不到半年后,已在MLPerf Inference v5.1的全新推理(reasoning)推论基准上创下纪录,与采用NVIDIA Blackwell架构的GB200 NVL72系统相比,DeepSeek-R1推论的输送量最高可达1.4倍。
Blackwell Ultra建立在Blackwell架构的成功之上。Blackwell Ultra架构提供与Blackwell相比1.5倍的NVFP4 AI运算与2倍的attention-layer加速,且每颗GPU可配备最高288GB的HBM3e存储器。
NVIDIA平台也在MLPerf Inference v5.1套件新增的所有数据中心基准上创下效能纪录,包含DeepSeek-R1、Llama 3.1 405B Interactive、Llama 3.1 8B与Whisper,同时持续维持每颗GPU在每项MLPerf数据中心基准中的纪录。
全端整合
全端共同设计在交出这些最新基准成绩时扮演重要角色。Blackwell与Blackwell Ultra导入对NVFP4数据格式的硬件加速。NVFP4是NVIDIA设计的4位元浮点格式,相较于其他FP4格式提供更佳准确度,也可达到与较高精度格式相当的准确度。
NVIDIA TensorRT Model Optimizer软件将DeepSeek-R1、Llama 3.1 405B、Llama 2 70B与Llama 3.1 8B量化为NVFP4。搭配开源的NVIDIA TensorRT-LLM程序库,这项最佳化使Blackwell与Blackwell Ultra在提交成绩时能在满足严格准确度要求的同时提供更高效能。
大型语言模型的推论由两种执行特性截然不同的工作负载组成。这包括用于处理使用者输入以产生第一个输出词元的情境(context),以及用于产生其后的所有输出词元的生成(generation)。
一种称为「分离式服务(disaggregated serving)」的技术,会将情境与生成任务拆分,使每一部分都能独立最佳化以达到最佳整体输送量。这项技术是Llama 3.1 405B Interactive基准创下纪录的关键之一。
相较于在NVIDIA DGX B200服务器上以传统服务架构执行该基准时每颗Blackwell GPU的表现,GB200 NVL72系统的每颗GPU效能提升将近50%。NVIDIA也在本轮基准测试首度使用NVIDIA Dynamo推论框架提交成绩。
NVIDIA的合作夥伴,包括云端服务供应商与服务器制造商,提交了采用NVIDIA Blackwell与(或)Hopper平台所展现的亮眼成绩。这些夥伴包含Azure、Broadcom、Cisco、CoreWeave、Dell Technologies、技钢科技、HPE、Lambda、Lenovo、Nebius、Oracle、云达科技、Supermicro及University of Florida。
在NVIDIA AI平台上领先市场的推论效能,现已由主要云端服务供应商与服务器制造商提供。这为部署进阶AI应用的组织带来更低的总拥有成本与更高的投资报酬。
若想进一步了解这些全端技术,请阅读NVIDIA技术博客关于MLPerf Inference v5.1的文章。也欢迎造访NVIDIA DGX Cloud Performance Explorer,以深入认识NVIDIA的效能与模型总拥有成本,并产生定制化报告。