Ubiquiti AI团队以Gemini AI Console管理GPU加速AI研发
- 尤嘉禾/台北
全球第三大网通公司优比快科技(Ubiquiti Inc., NYSE: UI),领先透过AI来深化网通技术,以及增进监控产品的效能。位于台湾的AI研发团队,每天都有大量的AI模型训练与测试工作在进行,而为了能够让研发更有效率,于年初购入了顶级Nvidia A100 GPU运算卡,但要如何在多人协同开发情境下,有效利用这样高规格的卡片,成为他们最具挑战的问题之一。
「我们当初就是看到双子星云端有GPU Partitioning的功能,才决定要导入AI Console来管理我们的资源。」优比快AI平台架构师Elton表示。
该团队在导入AI Console以前,采用一人一台小型GPU工作站来进行AI模型的研发,但由于每个人所专注的AI研发项目不同,开发环境也有很大的差异,因此也很难进行资源整合。
后来也曾经租用了公有云运算环境,但Elton坦言:「之前考虑到如果要租用更高规格的GPU长期使用,价格会远远超过自行建置。所以评估多个因素过后直接购买硬件资源,也训练团队能自行管理On-Prem Server。」
但光有硬件资源还是不够,开发人员环境不一致的问题依然存在,甚至在同一个环境上,也会出现资源互斥(resource conflict),以及GPU存储器互抢的问题,导致即使一个GPU可以两个工作同时使用,但一个工作失败了,另一个也会受影响而失败。
因此在等待机器这段时间,研发团队内也先行做了许多研究,像是透过Docker或self-hosted K8S来管理GPU资源,甚至也使用了Kubeflow 这套以容器为基础的知名开源机器学习平台,可惜在使用的过程中不断遇到问题,也很难进行除错(debug)和整合既有内部开发流程,因此才萌生出购买商用软件来解决问题的想法。
Gemini AI Console内建GPU Partitioning分割共享机制,能够将一片GPU,透过有效资源隔离的方式达到GPU共享,而这正是采用顶级GPU的优比快AI团队所需要的功能。
目前该团队已成功将大部分AI模型训练的工作,透过AI Console以容器化的方式,派送给两台装载Nvidia A100的 Dell服务器上。甚至自主开发了一个简易的MLOps平台,将AI Console内所提供的两大管理界面,以及核心监控报表,嵌入在该平台的首要位置,并搭配团队目前使用的其他既有开发工具,成为研发团队统一的AI研发入口。
Elton表示:「AI Console让组织的计算资源可以有效管理,而且双子星的窗口对于我们任何问题回复的速度都很快。」这是在导入这段期间内,他对于双子星的产品与服务最大的感想。而未来双子星云端,也将会不断替客户提供最新的AI Console版本,让客户可以基于云原生与容器化技术,以及双子星的专业技术,快速进行AI研发与创新。