智能应用 影音
Microchip Technology Hong Kong
科睿唯安

NVIDIA积极部署新一代人工智能运算 瞄准数据中心未来

  • 台北讯

NVIDIA企业运算部门负责人Manuvir Das。

NVIDIA(辉达)宣布并购ARM与积极策划人工智能(AI)应用的同时,并以创新技术来增强数据中心的AI运算能力。在COMPUTEX 2021期间,NVIDIA发表数据中心服务器新的硬件与软件,包括NVIDIA BlueField-2 DPU的数据处理器,以及NVIDIA认证系统,还有推出NVIDIA Base Command

BlueField-2 DPU提供高速网络界面、可程序化的ARM核心,以及硬件加速的加密/解密引擎,可以额外提供网络传输、数据安全与储存的运算能力。

对於BlueField-2 DPU能够如何帮助服务器提升整体的效能,NVIDIA企业运算部门负责人Manuvir Das表示:「目前数据中心的CPU最多仅能挪用30%的运算效能,处理一般的系统管理工作任务,而非支持数据中心内的应用程序运作。」

BlueField-2 DPU是专门设计用以协助数据中心服务器处理基础架构任务的运作,透过DPU的导入与加持後,从而可以释放CPU的资源,让企业可以用较少的服务器执行相同的任务,因为服务器效能变好了。

使用硬件加速卡运作效益也大不同,相较於使用软件加速的GPU加速卡,一旦DPU可以用来处理在服务器与储存装置间,以及服务器的数据输出入界面的繁忙网络运作时,数据中心的效能与效期都大为改观。

BlueField DPU在处理网络运作的优异加乘效能与表现之下,让大部分的竞争对手产品显得相形见绌,因为对手多半只是言过其实的仅考虑将运算能力强加进芯片而已。

Manuvir Das强调:「在DPU内的ARM核心处理器与专属的芯片组也在加速网络传输任务中扮演着关键角色,由於效益显着,未来NVIDIA将会寻求将DPU与GPU加以整合至同一芯片内的机会。」

为了顺势大力推广,NVIDIA与其他结盟的服务器制造商,如华硕(ASUS)、技嘉(GIGABYTE)、云达科技(QCT)、戴尔科技(Dell Technologies) 与美超微(Supermicro)将推出搭载DPU的服务器系统。因为DPU主要帮助分摊服务器处理器的工作负担,所以硬件系统几乎可以用在各产业与应用系统中。

值得一提的,服务器系统内的信息安全功能特别容易受惠於DPU的导入,随着信息安全在云端运算产业益形重要之际,DPU特别可以协助已经分身乏术又占住庞大运算资源的CPU。

「再者,对於NVIDIA认证的数据中心服务器,目前NVIDIA与服务器制造商正在为认证服务器建立测试模板,制造商需要在各自的服务器系统上建立针对NVIDIA服务器的硬件架构做出正确的效能调校与设定,然後通过效能验证机制以取得NVIDIA的认证。」Manuvir Das补充说明。

一旦取得NVIDIA认证後,采购认证的服务器系统将获得在AI运算效能上的保证,也可以获得NVIDIA的技术支持,即使在认证机制下发生的可能性已非常低。

NVIDIA也预计在2022年将认证服务器的计划扩展到ARM核心为主的服务器系统上,对於大部分的AI应用软件而言,主要由服务器系统中的GPU负责运算,所以服务器多半搭载轻量级的CPU以降低功耗,而ARM核心则是以省电效能着称的处理器,因此非常适合未来服务器系统来使用。

Manuvir Das强调:「全球顶尖服务器制造商已正在打造ARM核心的服务器系统,虽然目前 x86 架构的服务器系统仍是业界的主流,NVIDIA仍尝试为利基型应用的服务器扮演推手,以满足客户的需求。」

NVIDIA Base Command平台是专为大规模、多使用者、多AI开发工程团队的运作流程而设计的,并兼具本地(on-premises)或云端部署之用,让多个研发专家或数据科学家可以同步一起运作,来提升运算效能与速度,让企业得以发挥专家团队与珍贵的AI架构资源的产能最大化效益。

Base Command平台原本是NVIDIA内部工程团队的基础系统,专用於数据科学家进行多个AI计划时,作为分享最新成果与工作进度的平台,当平台越来越成熟而客户的需求也越来越明显之时,NVIDIA决定加以商品化推广与分享,Manuvir Das强调:「NVIDIA负责维护Base Command平台,并涵盖软、硬件架构的服务,虽然整体营运服务是由NetApp公司所主导。」

当大多数企业导入AI应用的过程遇到问题或是瓶颈时,Manuvir Das特别指出,NVIDIA目前所看到具关键挑战性的难题,就是数据科学家以及IT工程师间的合作与协调,他们一个是AI训练与模型建立的佼佼者,另一个则是擅长於如SAP和VMware应用的专家,NVIDIA希望Base Command平台能顺利协助解决双方的问题。

随着AI运算服务器成为全球数据中心最受欢迎与广泛使用的系统,Manuvir Das期盼NVIDIA认证服务器的数量,能成为AI-ready硬件装置市场渗透率的一个重要指标,目前数据中心业者仍习惯个别采购服务器系统与GPU加速卡,但是NVIDIA认证服务器将会在几年内改变这个生态。

然而,服务器的更替循环仍需要好几年的时间,主要的数据中心服务器系统也需要一段时间的汰旧换新才能执行完整的AI运算任务。

此外,Das亦分享NVIDIA与VMware的合作计划,包括vSphere更新与Project Monterey。VMware在2021年3月针对vSphere打造一个更新版本以支持NVIDIA AI企业软件套件,目前 NVIDIA已经可以提供一些早期的版本给部分客户。

2021年夏天,VMware将会进行vSphere更新,目前NVIDIA会提供第一个普通版本的AI企业软件套件让客户可以从研发进行到生产。

另外,Project Monterey是NVIDIA与VMware 一起合作将VMware软件在BlueField DPU环境执行运作,因为VMware的Hypervisor虚拟化管理程序已经可以在CPU环境下运作,而新的计划是要让DPU分担CPU的工作负担并有效率的执行虚拟化管理程序,请大家拭目以待。

观看NVIDIA COMPUTEX 2021主题演讲重播,进一步了解更多NVIDIA企业AI最新消息。