NVIDIA贡献Blackwell平台设计供开放式硬件生态系使用加速AI基础设施创新

黄郁婷／台北
2024/11/26 03:35
分享

NVIDIA 贡献 Blackwell 平台设计供开放式硬件生态系统使用，加速推动 AI 基础设施创新。NVIDIA

NVIDIA（辉达）为加速运算领域的先驱。为推动发展开放、高效且具扩充能力的数据中心技术，宣布已将NVIDIA Blackwell加速运算平台设计的基础要素贡献给开放运算计划（OCP）使用，并且扩大NVIDIA Spectrum-X支持OCP标准的程度。

NVIDIA在2024年的OCP全球高峰会上，将与OCP社群分享NVIDIA GB200 NVL72系统机电设计的关键组成，包括机架架构、运算与交换器托盘机构、液冷与热环境规格，以及NVIDIA NVLink缆线盒的体积容量，以支持更高的运算密度与网络带宽。

NVIDIA已经横跨多个硬件时代做出多次正式贡献给OCP，其中包括NVIDIA HGX H100基板设计规格，以帮助生态系提供来自全球电脑制造商更多的产品选择，还有扩大AI的应用范围。此外，NVIDIA Spectrum-X以太网络平台更加符合OCP社群所制定的规格，可让企业部署OCP认可的设备，发挥AI工厂的效能潜力，又能保留原本的投资及保持软件一致性。

NVIDIA创始人暨CEO黄仁勳表示，NVIDIA从跟OCP合作十年的基础出发，与产业领导厂商共同努力，制定可在整个数据中心广泛采用的规格与设计。我们推动开放标准，协助全球各地的组织充分发挥加速运算技术的潜力，打造未来的 AI 工厂。

电脑制造商采用建立在NVIDIA MGX模块化架构上的GB200 NVL72，便能以快速且符合成本效益的方式建立大量数据中心基础设施设计。这款机架规模设计的液冷系统，连接36颗NVIDIA Grace CPU和72颗 NVIDIA Blackwell GPU。当中的72颗GPU的NVIDIA NVLink网域，可以当成一个大型GPU进行运作，在上万亿个参数的大型语言模型进行实时推论作业时，速度比NVIDIA H100 Tensor核心GPU快上30倍。

现加入新一代NVIDIA ConnectX-8 SuperNIC的NVIDIA Spectrum-X以太网络平台，支持OCP的交换机抽象层界面（Switch Abstraction Interface；SAI）与Software for Open Networking in the Cloud（SONiC）标准。这样一来客户便能使用Spectrum-X的动态路由和基于遥测的壅塞控制技术，加速横向扩充式AI基础设施的以太网络效能。

ConnectX-8 SuperNIC 具有速度高达800Gb/s的加速网络，以及针对大规模AI工作负载进行最佳化的可程序化数据包处理引擎。适用于OCP3.0 的ConnectX-8 SuperNIC将于2025年推出，协助组织建立高度灵活的网络。
　
随着全球从通用运算改为使用加速运算与AI运算技术，数据中心基础设施也变得日渐复杂。NVIDIA正与多家全球电子产品制造商紧密合作，这些制造商为打造AI工厂提供关键元件，以求简化开发流程。此外，还有不少合作夥伴也在Blackwell平台上进行创新与建置，其中包括Meta，该公司计划将其搭载GB200 NVL72的Catalina AI机架架构贡献给OCP。这样提供电脑制造商灵活的选择以建立高运算密度系统，且能满足数据中心不断成长的效能与能源效率需求。

Meta工程部门副总裁Yee Jiun Song表示，NVIDIA多年来始终是开放运算标准的主要贡献者，其中包括其高效能运算平台，过去两年来这个平台一直是我们Grand Teton服务器的基础。我们不断努力满足大规模AI日益成长的运算需求，NVIDIA在机架设计与模块化架构方面最新的贡献内容，将有助于加快整个产业开发与导入AI基础设施的速度。

加入已选取到「关键字追踪」什麽是「关键字追踪」

NVIDIA贡献Blackwell平台设计供开放式硬件生态系使用 加速AI基础设施创新

NVIDIA贡献Blackwell平台设计供开放式硬件生态系使用加速AI基础设施创新