Mellanox网络运算解决数据中心AI架构瓶颈 提升运算效能 智能应用 影音
Microchip
ADI

Mellanox网络运算解决数据中心AI架构瓶颈 提升运算效能

  • 尤嘉禾

Mellanox市场开发高级总监宋庆春。
Mellanox市场开发高级总监宋庆春。

现今数据成长快速,企业日益重视数据蒐集的工作。过去数据中心是以CPU为核心现在正转变为以数据为核心,也就是数据在哪里运算工作就在那里。所以有CPU运算、GPU运算、网络运算、储存运算等,各种运算组合在一起就是现在新一代数据中心最好的架构。

Mellanox市场开发高级总监宋庆春解释为何数据中心有此转变,因现行的数据中心架构在进行AI运算时会面临网络瓶颈与运算瓶颈问题。网络瓶颈是指当GPU做完机器学习运算后,会把运算结果传送到某台参数服务器上,由这台来做数据聚合(data aggregation),然后做参数更新,再把新的参数送到每台执行运算的GPU上。如此一来所有数据传到某一特定服务器CPU,会有多对一的通讯并导致网络产生瞬间爆量,若处理不好可能产生掉封包,并可能使training及inference的产出结果不正确,若要重传数据,则会使效能下降。运算瓶颈则是当GPU做完training运算还未得到新的参数前没办法做下一轮运算,当CPU未处理完所有数据的汇集,无法更新参数,其他GPU无法执行运算因而导致瓶颈。

因此以数据为中心的架构,是当CPU、GPU做完运算,结果传送到网络交换器上即可做数据聚合,做barrier或Allreduce,可自动更新新的参数,不需把数据传输到某个CPU、GPU上,可缩短运算时间及等待时间,解决两种瓶颈。

从数据蒐集、分析、建模、推论的流程来看,Mellanox的智能网络设备可以在档案系统/数据库、储存系统、数据分析、机器学习等各环节上协助提升效能。以数据训练来说,目前GPUDirect RDMA(Remote Direct Memory Access)技术十分热门,就是在GPU存储器之间建立代理,之前跨服务器的GPU memory要做数据交换时,数据需在GPU memory与CPU memory之间做很多存储器复制,导致效能下降且CPU使用率提高,透过RDMA可得到更多沟通效率,效能提升达10倍。在数据分析方面,Mellanox的SparkRDMA把Spark移到RDMA上,亦达到2倍以上执行效能的提升。