全球电脑制造商借助NVIDIA人工智能技术 创突破性的基准测试结果 智能应用 影音
EVmember
ST Microsite

全球电脑制造商借助NVIDIA人工智能技术 创突破性的基准测试结果

  • 赖品如台北

根据最新公布的MLPerf基准测试结果,NVIDIA(辉达)的合作夥伴目前提供用于训练人工智能(AI)的GPU加速系统,其速度较任何系统更快。
根据最新公布的MLPerf基准测试结果,NVIDIA(辉达)的合作夥伴目前提供用于训练人工智能(AI)的GPU加速系统,其速度较任何系统更快。

七间公司在最新一轮的产业基准测试中,提交至少十多套市售系统进行测试,其中大多为NVIDIA认证系统。NVIDIA 与戴尔 (Dell)、富士通 (Fujitsu)、技嘉 (GIGABYTE)、浪潮 (Inspur)、联想 (Lenovo)、宁畅 (Nettrix) 及美超微 (Supermicro) 共同展示了使用 NVIDIA A100 Tensor核心GPU 训练神经网络,所创造出引领业界的亮眼表现。

只有NVIDIA及其合作夥伴完整进行最新一轮基准测试中的8项作业负载。整体来说,搭载NVIDIA技术的提交数据共占了四分之三以上,且结果十分漂亮。

与2020年的成绩相比,我们的效能表现提升了3.5倍。针对需要使用庞大运算资源的大规模作业,我们从破记录的4,096个GPU中集结资源,较任何其他参与测试的产品都还要更多。

MLPerf 为何如此重要

这是NVIDIA商业生态系第四度参加MLPerf训练测试,也是表现最为亮眼的一次。MLPerf为2018年5月成立的产业基准测试组织。

MLPerf的测试成果让用户能在充分了解的情况下进行购买决策,并获得数十间业界领导者的支持,包含阿里巴巴、ARM、百度、Google、英特尔(Intel)与NVIDIA等,其测试结果兼具透明性和客观性。

这项测试基准以目前最热门的AI作业负载和场景为基础,涵盖电脑视觉、自然语言处理、推荐系统、强化学习等,而训练基准则聚焦于用户最为关心的事情,也就是训练一个全新AI模型所需耗费的时间。

速度加上弹性造就生产力

最终客户基础设施投资的回报取决于他们的生产力。这来自于在运行多种AI作业负载时既快速又灵活的能力。因此,这就是为什麽使用者需要一套灵活且强大的系统,能够快速将各种AI模型投入生产环境并缩短上市时间,同时彻底发挥宝贵的数据科学团队的生产力。

根据最新的MLPerf测试结果,NVIDIA AI平台在商用AI超级电脑类别的所有8项基准测试中以最短的时间训练模型,创下了效能记录。

根据最新的TOP500排名,我们在当今世界上最快的商用AI超级电脑上进行大规模测试。Selene超级电脑与排行榜上其他十多套系统一样,皆采用NVIDIA DGX SuperPOD架构。扩展到大型丛集的能力是AI领域最艰钜的挑战,也是我们的核心优势之一。

在芯片对芯片的比较中,NVIDIA及合作夥伴在最新的商用系统测试中创造8项基准测试的纪录。整体来说,下方的测试结果显示我们的效能在两年半内提升了6.5倍,这证明了可以在GPU、系统和软件的全堆叠(full-stack)NVIDIA平台上进行作业。

广泛的生态系提供最佳价值和选择

MLPerf结果展示了各种基于NVIDIA的AI平台,以及许多创新系统的效能,包含从入门的边缘服务器到搭载数千个GPU的AI超级电脑。

参与最新基准测试的近20家云端服务供应商和OEM厂商,NVIDIA的7个合作夥伴名列其中,其本地端的产品或计划采用NVIDIA A100 GPU的云端执行个体、服务器和 PCIe 卡中,包括近40个NVIDIA认证系统。我们的合作夥伴生态系为客户提供广泛的部署模型选择,从按分钟出租的执行个体到本地端的服务器和托管服务,皆提供业内最高的价值。

所有MLPerf的测试结果都显示了我们的效能持续在提升,这是因为我们的平台拥有成熟且不断进化的软件,让团队可以快速开始使用持续精进的系统。

我们是如何做到的

这是我们A100 GPU第二次参与MLPerf测试。在另一篇文章中,详细描述了GPU、系统、网络与AI软件等方面的进步如何提升运算速度。举例来说,我们的工程师找到了一种使用CUDA Graphs启动全神经网络模型的方法,CUDA Graphs是一套由NVIDIA CUDA运作项目及其依赖项目构成的软件套装。

如此一来便消除过去测试时CPU遇到的瓶颈,这些测试将AI模型作为许多单独元件(kernel)的链来进行释放。此外,大规模测试使用NVIDIA SHARP,该软件可以整合网络交换器中的多项数据传输作业、减少网络流量与等待CPU处理的时间。

结合 CUDA Graphs 与 SHARP,使得数据中心可以运用破纪录的GPU数量来进行训练工作。这是如自然语言处理等许多领域所需要使用到的运算能力,在这些领域里的 AI 模型规模持续成长,其包含数十亿个参数。其他优势包含最新的A100 GPU将存储器带宽增加近30%,达到每秒超过2 terabytes(TB)的存储器带宽。

来自客户对于MLPerf的回馈

各类型的AI用户皆认为这些基准测试为其带来实质的帮助。瑞典Chalmers University的发言人表示:「MLPerf基准测试提供针对多个跨AI平台且清楚的同类型比较,以展现其应用于各种真实案例的实际效能表现。」该大学进行从纳米技术到气候研究等领域的研究工作。

这些基准帮助使用者找到能够满足全球部分规模最大、最先进工厂所要求的AI产品。例如,全球顶尖芯片制造商台积电,使用机器学习来提升光学邻近效应修正功能(OPC)与蚀刻模拟(etch simulation)的表现。

台积电OPC部门主管Danping Peng表示:「为了充分发挥机器学习在模型训练和推论的能力,我们与NVIDIA工程团队合作,将Maxwell模拟与反向微影技术引擎转移到GPU上,并看见执行速度大幅提升。MLPerf基准测试是协助我们做出决定的一项重要因素。」

在医学与制造领域逐渐受到青睐

这些基准也有助于研究人员突破AI的极限,以提升医疗保健水准。德国癌症研究中心DKFZ的医学影像运算部门负责人Klaus Maier-Hein表示:「我们与NVIDIA密切合作,将3DUNet等创新技术带入医疗保健市场。产业标准的MLPerf基准测试提供相关的效能数据,让IT组织和开发人员能够取得精确的解决方案,以加速推动其特定专案和应用项目。」全球研究与制造领域的领导者三星电子(Samsung),在导入AI的过程中采用MLPerf基准测试,以提高产品效能及制造生产力。

三星电子的发言人表示:「我们必须具备最佳的运算平台,才能将先进的AI技术加以产品化。MLPerf基准测试提供一个公开且直接的评估方法,让我们能够统一评估各平台供应商,进而简化选择的过程。」

取得相同的测试结果和工具

MLPerf的数据储存库提供最新测试所使用的各套软件,因此,所有人皆可重现我们的基准测试结果。我们会持续将这些程序码加入深度学习架构和容器中,使用者可以在NVIDIA的GPU应用程序软件中心NGC上取得。它是全堆叠AI平台的一部分,经过最新的产业基准验证,并且能够从个个合作夥伴取得,用以处理当前真正的AI工作。


关键字