NVIDIA贡献Blackwell平台设计供开放式硬件生态系使用 加速AI基础设施创新
NVIDIA(辉达)为加速运算领域的先驱。为推动发展开放、高效且具扩充能力的数据中心技术,宣布已将NVIDIA Blackwell加速运算平台设计的基础要素贡献给开放运算计划(OCP)使用,并且扩大NVIDIA Spectrum-X支持OCP标准的程度。
NVIDIA在2024年的OCP全球高峰会上,将与OCP社群分享NVIDIA GB200 NVL72系统机电设计的关键组成,包括机架架构、运算与交换器托盘机构、液冷与热环境规格,以及NVIDIA NVLink缆线盒的体积容量,以支持更高的运算密度与网络带宽。
NVIDIA已经横跨多个硬件时代做出多次正式贡献给OCP,其中包括NVIDIA HGX H100基板设计规格,以帮助生态系提供来自全球电脑制造商更多的产品选择,还有扩大AI的应用范围。此外,NVIDIA Spectrum-X以太网络平台更加符合OCP社群所制定的规格,可让企业部署OCP认可的设备,发挥AI工厂的效能潜力,又能保留原本的投资及保持软件一致性。
NVIDIA创始人暨CEO黄仁勳表示,NVIDIA从跟OCP合作十年的基础出发,与产业领导厂商共同努力,制定可在整个数据中心广泛采用的规格与设计。我们推动开放标准,协助全球各地的组织充分发挥加速运算技术的潜力,打造未来的 AI 工厂。
电脑制造商采用建立在NVIDIA MGX模块化架构上的GB200 NVL72,便能以快速且符合成本效益的方式建立大量数据中心基础设施设计。这款机架规模设计的液冷系统,连接36颗NVIDIA Grace CPU和72颗 NVIDIA Blackwell GPU。当中的72颗GPU的NVIDIA NVLink网域,可以当成一个大型GPU进行运作,在上万亿个参数的大型语言模型进行实时推论作业时,速度比NVIDIA H100 Tensor核心GPU快上30倍。
现加入新一代NVIDIA ConnectX-8 SuperNIC的NVIDIA Spectrum-X以太网络平台,支持OCP的交换机抽象层界面(Switch Abstraction Interface;SAI)与Software for Open Networking in the Cloud(SONiC)标准。这样一来客户便能使用Spectrum-X的动态路由和基于遥测的壅塞控制技术,加速横向扩充式AI基础设施的以太网络效能。
ConnectX-8 SuperNIC 具有速度高达800Gb/s的加速网络,以及针对大规模AI工作负载进行最佳化的可程序化数据包处理引擎。适用于OCP3.0 的ConnectX-8 SuperNIC将于2025年推出,协助组织建立高度灵活的网络。
随着全球从通用运算改为使用加速运算与AI运算技术,数据中心基础设施也变得日渐复杂。NVIDIA正与多家全球电子产品制造商紧密合作,这些制造商为打造AI工厂提供关键元件,以求简化开发流程。此外,还有不少合作夥伴也在Blackwell平台上进行创新与建置,其中包括Meta,该公司计划将其搭载GB200 NVL72的Catalina AI机架架构贡献给OCP。这样提供电脑制造商灵活的选择以建立高运算密度系统,且能满足数据中心不断成长的效能与能源效率需求。
Meta工程部门副总裁Yee Jiun Song表示,NVIDIA多年来始终是开放运算标准的主要贡献者,其中包括其高效能运算平台,过去两年来这个平台一直是我们Grand Teton服务器的基础。我们不断努力满足大规模AI日益成长的运算需求,NVIDIA在机架设计与模块化架构方面最新的贡献内容,将有助于加快整个产业开发与导入AI基础设施的速度。