Hot Chips大会:各种规模的推论、网络与AI创新 全都建构于NVIDIA技术之上
人工智能(AI)推理、推论及网络技术将是Hot Chips大会的焦点议题。8月24至26日在史丹佛大学举办的Hot Chips大会,是产业与学术界处理器与系统架构人员的重要论坛活动,展示推动AI工厂发展及驱动上万亿美元等级数据中心运算市场的最新创新技术。
在这场盛会上,NVIDIA与Google、微软等产业领袖一同参与8月24日举行的「教学(tutorial)」活动,探讨数据中心的机架级架构设计。
此外,NVIDIA专家团队还将在四场演讲及一场教学活动详细说明:包括NVIDIA ConnectX-8 SuperNIC在内的NVIDIA网络技术,如何在机架与数据中心规模下实现AI推理(由NVIDIA网络界面卡与系统单芯片首席架构师Idan Burstein主讲)。
由包括NVIDIA GeForce RTX 5090 GPU在内的NVIDIA Blackwell架构所带动的神经渲染技术进步与推理效能大幅跃进,将绘图与模拟能力提升到全新高度(由NVIDIA架构资深总监Marc Blackstein主讲)。
整合矽光子技术的共同封装光学(CPO)交换器以光纤取代传统铜线,数据传输的速度更快、能源消耗也更少,可实现建置高效率、高效能、千万亿瓦规模的AI工厂。
本场演讲也将介绍NVIDIA Spectrum-XGS 以太网络技术,这是一项全新的跨域扩展技术,可将分散式数据中心统一为AI超级工厂(由NVIDIA网络部门资深副总裁Gilad Shainer主讲)。
NVIDIA GB10超级芯片是NVIDIA DGX Spark桌上型超级电脑的引擎(由NVIDIA资深杰出工程师Andi Skende主讲)。这一切都体现了NVIDIA的最新技术如何加速推论,从而推动无所不在、涵盖各种规模的AI创新。
NVIDIA网络技术推动大规模AI创新
AI推理,也就是AI系统透过多重AI推理流程分析并解决复杂问题,需要机架等级的运算效能,才能高效率地提供最佳的使用者体验。
在支持当前AI工作负载的数据中心中,网络扮演着中枢神经系统的角色,将服务器、存储装置与其他硬件等所有元件,串连成为一个完整、紧密结合又强大的运算单元。
Burstein在Hot Chips大会的演讲活动将深入探讨NVIDIA的网络技术,特别是NVIDIA ConnectX-8 SuperNIC,如何实现高速、低延迟的多GPU通讯,以提供领先业界的大规模AI推理效能。
作为NVIDIA网络平台的一部分,NVIDIA NVLink、NVLink Switch与NVLink Fusion提供垂直扩展的连结能力,连接服务器内部及服务器间的GPU与运算元件,实现超低延迟与高带宽的数据交换。
NVIDIA Spectrum-X 以太网络 则提供水平扩展的架构,能将整个丛集连结起来,快速将大量数据集串流至AI模型,并在数据中心内协调GPU与GPU之间的通讯。
Spectrum-XGS 以太网络的跨域扩展技术,更进一步扩展了Spectrum-X的极致效能与规模,将多个分散式数据中心进行互连,从而打造出具备千万亿级智能能力的AI超级工厂。
作为Spectrum-X 以太网络的核心,CPO交换器突破大规模AI基础设施的效能与效率极限,Shainer将在演讲中针对这项技术详细介绍。
NVIDIA GB200 NVL72是采用单一机架的百万万亿级(exascale)电脑,配备36个NVIDIA GB200超级芯片,每个芯片整合两个NVIDIA B200 GPU与一个NVIDIA Grace CPU,这些运算单元透过有史以来最大的NVLink网域彼此互连,并由 NVLink Switch 为 AI 与高效能运算工作负载提供每秒130 TB的低延迟GPU通讯。基于NVIDIA Blackwell架构打造的GB200 NVL72系统,在推理与推论效能方面实现大幅跃进。
NVIDIA Blackwell与CUDA将AI带给数百万开发者
Blackstein将在演讲中深入介绍同样采用Blackwell架构的NVIDIA GeForce RTX 5090 GPU,透过NVIDIA DLSS 4技术,使当今游戏的效能翻倍。
NVIDIA DLSS 4技术还能为游戏加入神经渲染功能,从而将效能提升高达10倍、追迹效果放大10倍及设计周期缩短10倍,进一步强化电脑图形与模拟的真实感。这不仅能以更低能耗提供流畅而灵敏的视觉体验,角色与特效的逼真程度也可大幅提升。
NVIDIA CUDA是全球应用最普及的运算基础架构,让使用者能够在任何地方使用NVIDIA Blackwell部署并运行AI模型。
全球已有数亿的GPU运行CUDA,从NVIDIA GB200 NVL72机架规模系统,一直到搭载GeForce RTX及NVIDIA RTX PRO的个人电脑与工作站,而在Skende的演讲中讨论、NVIDIA GB10驱动的NVIDIA DGX Spark也即将推出。
从演算法到AI超级电脑 为大型语言模型最佳化而生
DGX Spark以精巧的外型,提供强大的效能与功能,让开发人员、研究人员、数据科学家与学生能在桌面端突破生成式AI的极限,并且加速推动各产业处理工作负载。
作为NVIDIA Blackwell平台的一部分,DGX Spark支持NVFP4,NVFP4是一种低精度数值格式,可实现高效的代理型AI推论,特别是大型语言模型(LLM)。如欲了解更多关于NVFP4的信息,请参阅NVIDIA技术博客。
开源协作推动推论创新
NVIDIA加速了多项开源函式库与框架,以加速并最佳化大型语言模型与分散式推论的AI工作负载。这些函式库与框架包括NVIDIA TensorRT-LLM、NVIDIA Dynamo、TileIR、Cutlass、NVIDIA Collective Communication Library及NIX,目前已整合至数百万个工作流程中。
为了让开发者能以自行选择的框架进行建置,NVIDIA与顶尖的开源框架供应商合作,为FlashInfer、PyTorch、SGLang、vLLM等提供模型最佳化。
此外,NVIDIA NIM微服务也已支持OpenAI的gpt-oss、Llama 4等多个热门的开源模型,让开发者能轻松操作托管型API,并在其首选的基础架构上享有自我托管模型的灵活性与安全性。欢迎参加NVIDIA在Hot Chips大会的各项活动,以了解更多关于推论与加速运算领域的最新进展。