智能应用 影音
<
DForum
DTResearch

长庚大学导入丽台GDMS GPU AI资源管理系统

  • 尤嘉禾/台北

长庚大学资工系系主任陈仁晖(左),长庚大学资工系助理教授李季青(右),丽台GDMS GPU资源管理系统及丽台WinFast GS4830AT服务器 (后)。

GPU的AI加速运算能力在各大研究上扮演关键角色。丽台科技突破传统限制,领先业界发表GPU资源分配与管理系统 (GDMS),并首由长庚大学资工系导入使用。丽台GDMS提供多人使用单一张GPU,以及一人使用多GPU两种资源分配模式,适用于NVIDIA全系列绘图卡,支持不同规模的工作负载,达到资源运用最大化。其直觉式图型操作接口,让不懂Docker指令的管理人员,仍能轻松执行AI专案建置,将AI研发和教学环境部署时间缩短300倍。

在AI研发上,目前大部分开发者采用的容器化开源软件架构,皆是以单张GPU为单位。也就是单一GPU卡,只能分配给单一Container使用。丽台GDMS则是以专案及Docker为基础的GPU资源分配与管理系统,容许多个Container使用同一张GPU资源。长庚大学资工系陈仁晖系主任提到,在教学上,学生所执行的专案较小,如果GPU等资源无法有效分配,将十分可惜。GDMS可以在相同资源条件下,让更多学生同时使用GPU运算资源,将能够大大提升GPU使用率。

此外,透过GDMS图型接口,除了能让使用者更方便操作外,老师也能在课堂间的休息时间,快速部署不同Container给指定学生使用。一般来说,大约需要花50分钟才能建立100个 Container,但现在只需要花十秒即可完成,同时达到快速备课及资源使用最大化目的,真的是教学一大利器。

丽台科技林威延博士补充,此种单卡支持多人使用的模式也相当适合企业研发单位执行AI训练,以降低总体持有成本。丽台GDMS另一个功能则反过来。例如研究单位进行大型AI研发专案时,丽台GDMS能集中多张GPU资源支持该专案进行,并确保其它人寻找可用GPU资源时不会影响到该专案的资源分配,弹性支持不同AI开发情境。

在实务上,随著需求不断改变,AI研发单位会不断的扩充硬件,创建不同的群组与Docker。时间久了,很难记住这些Docker部署在哪里些服务器上,进而造成管理混乱。在GDMS协助下,管理时间将大幅降低,研发团队可更专注于AI专案开发。

除此之外,丽台同时推出RTX GPU AI开发软件(RTX AI Software Pack)以解决AI架构相依函式库易相冲突的问题。丽台GPU AI开发软件集成了12种深度学习以及机器学习的开发套件。除了大家熟悉的Caffe、TensorFlow、学术界常用的PyTorch,还有RAPIDS等,各开发套件的兼容性已调整在最佳状态,在AI开发环境建置上,将可省去除错时间。

若在服务器上安装丽台GPU AI开发软件,再通过GDMS启动Container,便可直接开启多个对应的连接埠、集成储存设备路径,或安装必要套件(例如:Jupyter notebook、Matplotlib),专案成员亦可自行上传Docker Image。如此一来,透过GDMS的管理,除了GPU的资源分配之外,只需要对应多组连接埠,即可在有限的硬件实现多丛集架构的软件教学(例如:Hadoop),不需再购买其它虚拟化方案。更多讯息请上网站