Mellanox网络运算技术成为解决数据中心网络瓶颈的关键
迈伦科技(Mellanox)一开始也和传统端到端网络产品供应商一样,透过传统网络技术从网络层面来开发产品。「经过一番转型,Mellanox特别推出『网络运算』(In-Network Computing)的新概念与新技术,」Mellanox亚太区市场开发高级总监宋庆春表示。
传统数据中心、AI中心或高效能运算中心(HPC Center)在谈到网络与CPU时,多半只会透过前者进行数据或应用的沟通,后者则进行运算,但在这种传统思维下的基础架构都遇到了瓶颈。也就是当所有数据移动到某特定CPU或特定服务器上运算时,就会导致网络及CPU效能出现瓶颈。
以往解决之道就只是透过增加CPU/核心数量与时脉,或提升网络速度等方式,但最终仍无法有效解决效能瓶颈的问题。尤其当CPU/核心数愈多时,愈会出现I/O及网络通讯上的瓶颈。这个瓶颈最常出现在以AllReduce演算法进行深度学习训练的模型上,因为当所有深度学习运算结果都需送到某颗CPU/GPU上进行结果的平均与聚合(Aggregation),然后再将参数送回到所有正在运算的GPU/CPU上去,就会形成多对一通讯,进而造成更严重的网络瓶颈。
为了解决这类问题,整个业界开始从传统的CPU-Centric思维逐渐转移到愈来愈火热的以数据为中心(Data-Centric)概念。宋庆春强调指出,该概念的主要目的就在探讨如何将原本的CPU导向主张,逐渐移转成Data/HPC/AI Center上任何节点都可以运算的新思维,亦即不论网络或储存都可变成运算的一部分。
透过Mellanox网络运算技术,便可将一些运算放到网卡、InfiniBand HCA卡或效能更佳的交换器上,如此一来,最终运算就能分散到数据中心任一地方,网络瓶颈问题便能迎刃而解。面对AllReduce演算法模型训练,若要将其放到网络交换器上进行运算,那麽就非需要一台会计算的交换器才行。
Mellanox最高等级、最高速的交换器便可支持40埠(每埠200G)一共8TB的带宽效能,其可将同时传上来的数据经运算后让整个数据量变小再往外送,进而消除了可能引起的网络瓶颈。值得一提的,Mellanox可确保上述运算不会牺牲掉网络效能,例如现在有40埠同时以200G速度传送数据,即在做数据运算时也能保证任何传输埠都不会有降速度的状况发生。「由此可见,Mellanox新推的网络运算技术,对今后DC/AI/HPC Center而言会是非常关键的技术,」宋庆春强调指出。
总之,网络运算技术是未来解决数据中心网络瓶颈的关键技术,以往交换器只会检视数据表头(Header),透过网络运算技术,除了表头外,还会对数据封包负载(Payload)与通讯埠做真正的运算。
再者,数据中心难免会有某链路故障的状况出现,以往都是透过管理软件来更正新的路由路径,但其效能很差,可能会造成延迟敏感度极高的应用程序停摆。Mellanox SHIELD技术对此改由交换器硬件自动找寻新路径来取代,其效率甚至比管理软件快上5,000倍,如此以来就不会对像是深度学习等关键应用造成影响。
最后,当数据中心规模愈来愈大时,想要快速将某问题定位出来绝对是项挑战。Mellanox透过遥测技术可在1秒内做到上百万次的取样,再搭配WJH(Work Just Happen)技术,便能协助管理人员快速找出问题所在。
宋庆春指出,台湾一直是Mellanox一块非常重要市场,尽管台湾市场规模不大,但台湾支持国际市场的重要半导体及各种硬件基地,Mellanox在台有专门支持ODM的专属工程师。举凡广达、纬颖、富士康等公司旗下许多产品线,例如IC或Mezzanine卡都将Mellanox网络技术纳入设计之中,今后使用者便可在这些产品中享受到该技术带来的好处。
如欲了解更多Mellanox网络运算技术,欢迎报名参加7/11(四)2019云端大数据论坛,宋庆春将发表「网络计算释放数据的力量」专题演说,还有机会抽中「Nintendao任天堂Switch」或「小豹AI音箱」,活动完全免费,详情请见活动网站。