AI高楼数据起!HPE多元AI储存方案 助力加速智能创新
在堪称科技界年度盛会之一的「HPE Discover 2024」大会上,HPE偕同NVIDIA发表双方联手孕育的HPE Private Cloud AI。两家公司合作缘由,在于意识到AI技术流于碎片化、复杂化,衍生诸多风险与障碍,导致企业AI进程延宕,甚至危及数据资产;双方一致认为企业需要藉助像是HPE Private Cloud AI的一站式方案,借此化繁为简,真正专注发展AI应用,而非深陷AI底层架构的整合泥沼。
HPE 数据服务暨储存方案事业群总经理萧舜华表示,HPE Private Cloud AI为兼具算力、模型、数据三大主轴的一站式解决方案。关于算力,主要内容在于HPE对NVIDIA最新GPU、CPU与Superchip的支持。模型部分以Ezmeral Unified Analytics平台为主力,一来提供模型管理与维运功能,为数据科学家和数据工程师带来MLOps综效;二来提供Orchestration机制,实现GPU虚拟化目标。HPE另提供Ezmeral Data Fabric软件,能以单一命名空间(Namespace)支持云地不同位置的多元类型数据,形成统一数据平台。
至于数据,堪称HPE Private Cloud AI中至关重要的一环,因为企业必须善用大数据,才能训练最佳模型。为此HPE发展多样性AI储存方案,协助企业在空间、效能、成本取得平衡,得以因应不同AI生命周期(依序为数据收集、数据准备、模型训练、模型推论阶段)、不同AI工作负载展开最佳投资布局。
多元AI储存方案,与各类AI 工作负载完美匹配
HPE 数据服务暨储存方案事业群资深技术经理吴铭哲指出,有关前两个AI工作阶段,数据收集需有大空间收纳海量原始数据(Raw Data),数据准备涉及清洗、标注作业,执行较多读写,对存取效能有较高要求。惟综观两阶段的演算需求,都不必然需要启用GPU,故多数用户倾向搭建效能适中、经济实惠的储存池。
至于后段的模型训练和推论阶段,对效能的要求明显增高,皆需仰赖GPU算力,用户有必要配置支持NVIDIA GPU Direct Storage(GDS)协定的储存系统,使GPU直接读取数据,藉以降低延迟、实现高速平行运算。
吴铭哲说,另由于不同模型,适用图档、影像、音讯、文字不同数据型态,数据量差异甚大,所需数据空间大小当然不同。基本上除文字型态的模型外,其余大型训练工作皆需数百TB以上空间,单靠本机磁碟(Local Disk)并不足以承载,须部署外部分享式储存设备。此外,仅靠本机磁碟对专案的管理及资源调配共享也非常困难。
为满足各类情境对储存效能、空间、成本的不同需求,HPE悉心设计3套AI储存方案。首先是HPE GreenLake for File Storage(GL4F),HPE透过VAST的技术移转而催生GL4F操作系统,再将它搭载于新一代HPE Alletra Storage MP。GL4F采用独特DASE(Disaggregated Shared-Everything)架构,便于用户依实际需要分别扩充控制器节点、储存节点,享有最大扩展弹性。
值得一提GL4F支持Similarity演算法,针对HPC数据或已压缩过的数据(如MPEG-4、JPEG),仍发挥2:1到3:1压缩比的减量效果,使All Flash成本趋近HDD-based阵列,加上广泛支持GDS、NFS、SMB、S3多元协定,得以达到效能与成本完美平衡,全面承载AI四大工作阶段。
其二是兼具大数据量、中低速性能、节省总拥有成本(TCO)诉求的Qumulo方案;HPE将Qumulo软件整合于验证过的自家储存设备,让用户能以SSD快取搭配HDD储存的配比结构,结合标准NFS存取协定,既可维持一定效能、又能降低建置成本,最适合承担数据收集与准备任务。
第三则是为支持GDS协定、主打高速运算诉求的Weka方案,HPE将Weka软件整合在经过认证的全快闪阵列,组成Turnkey搭售组合,内含已配置完成的网络节点与软件,帮助用户快速搭建高速平行存取架构,满足模型训练与推论作业需求。萧舜华强调,不论Qumulo或Weka方案,后续均由HPE扮演单一支持窗口。
藉由统一数据平台,消弭数据搬移负担
某金控业者建立模型开发区,由模型服务器利用NFS、S3或CSI协定存取后端Teradata、Hadoop/Object的大数据,再经过数据集整理与整合后,展开训练工作。
该业者考量数据拖拉耗时,往往一等就是数小时,故委请HPE协助建立一个能整合训练环境的统一数据平台。为此HPE规划以Ezmeral Unified Analytics为核心搭建数据平台计算层,同时部署Shared Storage,让不同GPU服务器、不同Project共同存取至单一数据平台。针对数据收集与准备,HPE拟以Qumulo或Ezmeral Data Fabric打造高性价比的大数据共享区;另以HPE GL4F构筑高速存取环境,支持AI/ML模型训练与推论,或GenAI的RAG、LLM训练等重度任务。
总之在数据为王时代,大数据是AI的关键燃料。因此HPE透过多元AI储存方案,协助企业轻易实现效能、扩充性与成本的均衡,顺势强化AI 生命周期管理效能,孕育伟大的智能创新应用。