国网中心结合AI国家队 打造高效节能的AI云端机房 智能应用 影音
hotspot
DForum0515

国网中心结合AI国家队 打造高效节能的AI云端机房

  • 张丹凤整理报导

AI云端机房突破了以往基础建设的SOP,此次专案动员了多家产业团队和工程单位,实属一大突破。
AI云端机房突破了以往基础建设的SOP,此次专案动员了多家产业团队和工程单位,实属一大突破。

去年(2018)年底传来令人振奋的消息,由科技部国研院国网中心结合台湾大哥大、广达电脑、华硕电脑共同组队建造的「云端服务及大数据运算设施暨整合式阶层储存系统」(简称「AI云端平台」),其中「台湾杉二号」AI超级电脑主机凭藉9 PFLOPS优异效能,勇夺TOP500第20名,能源效率(Green500)名列第10,双双创下台湾超级电脑史上最佳成绩。

上述AI云端平台,堪称台湾发展人工智能的重要基盘,可提供快速运算能力、大量储存空间与安全的网络,让产学研界享有更实时、更便利的运算服务,从而加速台湾人工智能相关技术与服务的发展。如此重要的平台,从无到有如何孕育而成,及机房基础设施的建置,都格外让人深感兴趣。

台湾大哥大企业用户事业群副理张哲源(右)表示,即便工程中间有项目变更,但透过台湾人工智能A Team与国网中心密集的开会讨论,其验收结果也超出期待;感谢整个专案团队与合作夥伴键祥信息工程。

台湾大哥大企业用户事业群副理张哲源(右)表示,即便工程中间有项目变更,但透过台湾人工智能A Team与国网中心密集的开会讨论,其验收结果也超出期待;感谢整个专案团队与合作夥伴键祥信息工程。

AI云端平台当初在采购、设计、规划等各个阶段,专案团队皆参考国际大型主机能力,包含整个资源运用方式,另针对空调、机电部份,则响应政府绿能政策,将满载情况下PUE目标设定为1.2。谈及前一代超级电脑「台湾杉一号」,运算效能为1.7 PFLOPS,PUE则为 1.3,而运算能力向来与功耗成正比,表面看来运算量大5倍的台湾杉二号,PUE高于1.3并不为过,但专案团队却订出高挑战性目标,显然在相关技术实作上掌握了独到诀窍。

采取Direct-to-Chip技术,减少冰水主机制冷

建置团队分析个中关键。首先采取水冷式Direct-to-Chip技术,旨在带走CPU的热;其原理很简单,假设CPU运作温度高于摄氏50度,外在的水温度只要低于50度,经过冷却水塔散热再进入CPU,必能形成温差将热带走,台湾杉一号首开先例采用此技术,证实有效降低空调用电,台湾杉二号自然持续跟进。

其次重点是PUE公式,简单来说PUE减掉1,便是机电设施用电量除以IT用电量,分子分母皆为变量,例如IT负载有高低变化,若机电设施未做对应调整,PUE肯定不佳;为此专案团队引进变频技术,让机电设施的用电不再维持定值,会因应IT负载做大幅度的弹性变化。另专案团队遵循Category 2样态,决定以PDU Output严格定义量测点,分子与分母单位皆kWh,具时间累加概念、而非取平均值,以彰显PUE真实表现。

再者国网中心仅规划储存、网络及监控等设施使用不断电设备供电,大幅减少不断电设备容量,并以220V电力供应服务器,意在减少电压转换损失及线路损失,达到减少资本支出。

团队应变得宜,克服GPU规格变更挑战

台湾大哥大业务三处副理张哲源表示,整个建置案的特色就是「赶」,一个年度内紧锣密鼓走完RFP规划、采购程序、设备进驻、测试验收等进程,尤其机房基础建设部份,去年4月25日决标、8月底完工,前后更只有短短4个月,专案团队仍如期如质完工,着实值得称许。

当然建置过程中不乏高难度挑战,例如台湾杉二号机房的所在建筑物,是10年前传统架构(每个机柜功率约2~5kW)设计的数据中心,亦无高架地板。如何应付台湾杉二号主机每柜近22kW以上的耗电量及电力、空调管线配置;因此国网中心特别与施工单位做前置协调会议,在会议国内网中心分享日本、新加坡的高速运算中心参访心得,希冀藉由他人成功经验,使周边基础设施建置团队无需费时Try & Error,便能因应环境限制,加速打造绿节能之AI机房。

另一显着的挑战,在于中途出现规格变更。张哲源表示,台湾大哥大在专案中负责机房建置、网安维运,华硕与广达分别负责软件、硬件,由广达于工厂完成组装与定制化,再将整柜运送到国网中心机房;期初预定采用内建16GB存储器的NVIDIA GPU,后来随着NVIDIA推出32GB新品,而科技部指示为了扶植台湾AI应用,须动员最大化资源,专案团队跟着响应这个大方向,决定改采32GB新型GPU,形同设计变更,后续许多环节都必须跟着修正;而广达在取得新品后,必须赶紧和时间赛跑,快速完成所有测试动作,可谓一大考验。

施工团队的代表说,举凡电力、空调、网络皆环环相扣,牵一松动全身,GPU规格升级、运算能力变强,意谓Direct-to-Chip架构下的进水量必须增加,才能带走更高的热,所以不论水量、水温、扬程,通通需要随之提升;其间若有任何环节的设计乱了套,就会影响PUE 1.2的达标,所幸包括专案团队、施工单位的应变能力甚强,即使GPU规格生变、又无参考素材可供调整参数设计,仍利用极为有限的时间整理出最佳调整之道。

实测PUE仅1.11,优于既定的能源效率目标

以施工单位而论,主要负责机房建置任务,在全案扮演「最晚交办、最早交付」的火车头角色,承受重大压力,幸而随着台湾大哥大PMO邀集专案成员进行多次技术讨论,加上国网中心设施服务组的严格把关,协助施工单位理出头绪,得以掌握达成目标的策略,进而按部就班加以落实,终能创造圆满结果。

比方说机房空间不使用高架地板,因应这个条件限制,施工团队选用四排机柜两座冷通道封闭Layout模式,完成27柜AI水冷服务器柜、9柜高速储存与网络系统柜、16座30cm面宽恒湿恒温机柜型精密空调主机的空间配置,一举实现空调节能、备援架构等多重目标。

再者施工团队透过国网中心既有300RT冷却水塔,采用「异质双水温冷却系统设计」(28~32度常温水+12~17度冰水),组成两套不同换温能力的钣式热交换器,外加一组220RT无段容调式冰水主机、两组带有不同温度的管路设计,以提供不同解热方式,巧妙达成高效节能目的。

根据专案交付前的HPL测试结果,台湾杉二号的实际PUE仅1.11(非IT用电78.39KW、IT用电795.05KW),优于团队缺省的1.2目标,单凭此一卓越表现,便足以为这次专案增添超完美的注脚。

2019企业机房论坛即将于5/16(四)假台北国际会议中心(TICC)盛大举办,国家高速网络与计算中心副工程师陈景全将进行深度案例分享「打造AI数据中心的周边基础设施」,当日议程从机房的设计规范、关键技术到维运体系,一共18堂课让您一次掌握完整信息,欢迎即刻报名免费获取18门奇功绝艺:https://www.digitimes.com.tw/seminar/DForum_20190516/