订报
活动+
 

Mellanox网络运算解决资料中心AI架构瓶颈 提升运算效能

Mellanox市场开发高级总监宋庆春。

现今资料成长快速,企业日益重视资料搜集的工作。过去资料中心是以CPU为核心现在正转变为以资料为核心,也就是资料在哪里里运算工作就在那里。所以有CPU运算、GPU运算、网络运算、储存运算等,各种运算组合在一起就是现在新一代资料中心最好的架构。

Mellanox市场开发高级总监宋庆春解释为何资料中心有此转变,因现行的资料中心架构在进行AI运算时会面临网络瓶颈与运算瓶颈问题。网络瓶颈是指当GPU做完机器学习运算后,会把运算结果传送到某台参数服务器上,由这台来做资料聚合(data aggregation),然后做参数更新,再把新的参数送到每台执行运算的GPU上。如此一来所有资料传到某一特定服务器CPU,会有多对一的通讯并导致网络产生瞬间爆量,若处理不好可能产生掉封包,并可能使training及inference的产出结果不正确,若要重传资料,则会使效能下降。运算瓶颈则是当GPU做完training运算还未得到新的参数前没办法做下一轮运算,当CPU未处理完所有资料的汇集,无法更新参数,其它GPU无法执行运算因而导致瓶颈。

因此以资料为中心的架构,是当CPU、GPU做完运算,结果传送到网络交换器上即可做资料聚合,做barrier或Allreduce,可自动更新新的参数,不需把资料传输到某个CPU、GPU上,可缩短运算时间及等待时间,解决两种瓶颈。

从资料搜集、分析、建模、推论的流程来看,Mellanox的智能网络设备可以在档案系统/资料库、储存系统、资料分析、机器学习等各环节上协助提升效能。以资料训练来说,目前GPUDirect RDMA(Remote Direct Memory Access)技术十分热门,就是在GPU存储器之间建立通路,之前跨服务器的GPU memory要做资料交换时,资料需在GPU memory与CPU memory之间做很多存储器复制,导致效能下降且CPU使用率提高,透过RDMA可得到更多沟通效率,效能提升达10倍。在资料分析方面,Mellanox的SparkRDMA把Spark移到RDMA上,亦达到2倍以上执行效能的提升。


  •     按赞加入DIGITIMES智能应用粉丝团
更多关键字报导: Mellanox 服务器 中央处理器 资料中心