让SSD参与运算 群联电子以CSD架构重塑AI训练流程 智能应用 影音
Digikey
member

让SSD参与运算 群联电子以CSD架构重塑AI训练流程

  • 林佩莹苗栗

RLFT方法之一GRPO + Reward model,透过CSD优化系统架构图。群联电子
RLFT方法之一GRPO + Reward model,透过CSD优化系统架构图。群联电子

AI系统运作长期依赖GPU算力提升,然而存储器成本高昂与数据传输瓶颈,已成为AI普及化的关键障碍,群联电子善用国网中心的高速运算资源与技术协作,开发出具备推论能力的运算型存储装置(Computational Storage Device;CSD),透过重构数据流架构与运算卸载策略,为AI训练流程效能最佳化开辟新路径。

群联电子技术长林纬指出,近年GPU等算力硬件已相对成熟且持续进化,但存储器成本高昂、容量受限,已成为AI普及化的关键瓶颈,特别是当企业尝试导入大型语言模型时,普遍面临存储器不足的问题。高端GPU的VRAM容量有限,扩充成本极高,直接影响模型训练效率。

GRPO pipeline拆解与CSD优化后之pipeline。群联电子

GRPO pipeline拆解与CSD优化后之pipeline。群联电子

此外,AI训练需要大量数据频繁在SSD与GPU间传输,产生严重的数据传输瓶颈,在推论或强化学习训练过程中,这种频繁的数据交互行为,更会大幅降低系统效能。由此可见,现有AI系统效能瓶颈已不再只是算力,存储器与数据传输架构也是关键之一,对此群联电子着手开发运算型SSD,借此辅助传统GPU架构,重构数据流架构。

群联专案聚焦两大创新略  以国网中心运算资源建构RLFT训练框架

群联利用国网中心提供的高速运算资源(HPC)开发的CSD架构,目标是将AI训练过程中部分高运算负载的任务,从传统CPU/GPU卸载至SSD控制芯片执行,进而打造具备存储与推论双重功能的SSD装置。

本次专案聚焦于RLFT(Reinforcement Learning Fine-Tuning;强化式学习微调)训练流程,该流程需在每次训练循环中执行大量推论与样本评估作业,导致GPU运算资源消耗远超预期,进而排挤其他训练任务执行,降低整体效率。

为解决此问题,群联提出两大创新策略:一为运算前置化,利用CSD在SSD端预先处理部分数据,再传送至GPU执行训练,降低数据搬移延迟;二为运算卸载,将训练过程中原由GPU处理的部分推论作业转交SSD控制芯片执行,以释放宝贵的GPU运算资源。

在国网中心提供的H100裸机资源协助下,群联电子成功建构完整RLFT训练框架,并透过深度Profiling分析,确认推论任务是RLFT训练中的最大瓶颈。分析结果显示,推论、样本评分与过滤、部分存储器快取操作等任务,都可以从GPU/CPU卸载到SSD控制芯片中执行。

林纬提到,群联电子目前已完成新一代SSD控制芯片在AI系统中的功能定位,包括接手哪些任务?何时参与卸载?如何与CPU和GPU协同工作?根据模拟结果,若将这些可卸载的推论与重播任务交由SSD处理,整体训练效率可望提升至原系统效能的10倍,同时降低存储器需求与功耗负担。

此外专案也规划出具备AI推论能力的芯片设计蓝图。这颗控制芯片将可在强化学习中负责推论任务,从传统SSD控制器仅处理存储I/O,进入「轻量AI加速器」领域。

林纬表示,此专案对群联意义重大,不仅开创NAND Flash在运算领域的新价值,更重构了产品定位,群联未来可提供具备AI推论能力的存储元件,直接切入AI训练服务器、云端平台与边缘AI市场,目前已规划至少三代的CSD产品开发路线图,明确定义每一代功能定位,专案成果也已纳入IC设计规格依据,预计2026年可产出首款具备AI运算功能的控制芯片实体样品。

在此专案中,国网中心的贡献不只是提供GPU资源,更包括技术方向指导、研究架构讨论,以及AI运算平台使用经验的共享。

林纬强调,国网专家协助群联掌握大型语言模型训练的实务细节,是帮助开发下一时代技术的关键夥伴。这项合作展现了台湾在AI基础建设与产业创新上的潜力,透过国家级资源与企业技术能力的结合,不仅推动了存储技术的革新,更为台湾在全球AI供应链中建立新的竞争优势。