实践机房绿色转型,从容布建AI算力 智能应用 影音
Event
EVmember

实践机房绿色转型,从容布建AI算力

  • 阚大成DIGITIMES企划

DIGITIMES每年举办企业机房论坛。优质传统已成为供应商与用户沟通的首选平台!2024年活动主题:数据中心的绿色奇「机」,吸引将近700位听众报名参加。。DIGITIMES摄
DIGITIMES每年举办企业机房论坛。优质传统已成为供应商与用户沟通的首选平台!2024年活动主题:数据中心的绿色奇「机」,吸引将近700位听众报名参加。。DIGITIMES摄

时至今日,AI算力需求已经正式超越摩尔定律;意谓谁能拥有最强大的算力,谁就越有机会驾驭AI,进而跻身市场新赢家。然而大家皆知,AI服务器对散热需求之高、远远超乎一般运算;在此情况下,意欲掌握AI所需要的高效稳定运算资源,必须先让自己的信息机房克服高热密度挑战。
为了协助企业能安然顺应AI应用狂潮,DIGITIMES遂将日前举办的2024企业机房论坛主题,设定为「数据中心的绿色奇『机』」。期望从数据中心的绿色能源转型出发,进而针对AI时代的赋能革命、数码韧性、永续发展等关键议题进行深入研讨。

EPI专家划重点,剖析TIA标准更新的影响

Vertiv的Liebert XDU Coolant Distribution Units解决方案,标榜能够以优异液冷技术、有效克服高密度热挑战,因而跃为AI时代的新宠。

Vertiv的Liebert XDU Coolant Distribution Units解决方案,标榜能够以优异液冷技术、有效克服高密度热挑战,因而跃为AI时代的新宠。

施耐德(Schneider) 透过「建构永续的用电未来」的智能机房主题设计,展示专为严峻环境而生的MDC微型数据中心方案。DIGITIMES摄

施耐德(Schneider) 透过「建构永续的用电未来」的智能机房主题设计,展示专为严峻环境而生的MDC微型数据中心方案。DIGITIMES摄

伊顿(Eaton)锁定绿色企业机房议题,展出微型数据中心、电力管理、配电系统、锂电池方案与3D可视化监控管理系统。DIGITIMES摄

伊顿(Eaton)锁定绿色企业机房议题,展出微型数据中心、电力管理、配电系统、锂电池方案与3D可视化监控管理系统。DIGITIMES摄

位居数据中心翘楚的中华电信,此次祭出「卫星机房2.0安心选」等数项IDC优惠方案,成功吸引许多与会者的目光。DIGITIMES摄

位居数据中心翘楚的中华电信,此次祭出「卫星机房2.0安心选」等数项IDC优惠方案,成功吸引许多与会者的目光。DIGITIMES摄

在全闪储存界极富盛名的Pure Storage,凭藉较同类机种减少85%耗电、数据减量、超高密度闪存、Evergreen等特色,凸显永续竞争力。DIGITIMES摄

在全闪储存界极富盛名的Pure Storage,凭藉较同类机种减少85%耗电、数据减量、超高密度闪存、Evergreen等特色,凸显永续竞争力。DIGITIMES摄

兼具电子元件、网安与网管等整合服务能量的翰特科技,这回携手Fluke力推PoE工业物联网连线品质验收及光纤检测工具。DIGITIMES摄

兼具电子元件、网安与网管等整合服务能量的翰特科技,这回携手Fluke力推PoE工业物联网连线品质验收及光纤检测工具。DIGITIMES摄

威图(Rittal)是全球知名的机箱机柜、配电组件、温控系统厂商,近期主打包括微型数据中心在内的边缘AI基建方案。DIGITIMES摄

威图(Rittal)是全球知名的机箱机柜、配电组件、温控系统厂商,近期主打包括微型数据中心在内的边缘AI基建方案。DIGITIMES摄

宏正(ATEN)提供线上集中控管、电源管理、专业级机柜、结构化布线…等丰富方案,堪称机房/中控室领域的要角。DIGITIMES摄

宏正(ATEN)提供线上集中控管、电源管理、专业级机柜、结构化布线…等丰富方案,堪称机房/中控室领域的要角。DIGITIMES摄

朋昶数码科技与Palo Alto Networks强强联手,重磅展示Prisma Cloud解决方案,旨在协助企业落实混合云网安管理,更安全地交付程序码。DIGITIMES摄

朋昶数码科技与Palo Alto Networks强强联手,重磅展示Prisma Cloud解决方案,旨在协助企业落实混合云网安管理,更安全地交付程序码。DIGITIMES摄

大型主机对电力的要求,与一般设备有4点不同。一是分类,二是持续性,三是稳定性,四是平衡。DIGITIMES摄

大型主机对电力的要求,与一般设备有4点不同。一是分类,二是持续性,三是稳定性,四是平衡。DIGITIMES摄

节能与永续之所以蔚为显学,首先拜AI发展所赐,其次是配合PUE未来目标,他预估今后水冷、液冷必成主流,如此才能将PUE压在1.3以下。DIGITIMES摄

节能与永续之所以蔚为显学,首先拜AI发展所赐,其次是配合PUE未来目标,他预估今后水冷、液冷必成主流,如此才能将PUE压在1.3以下。DIGITIMES摄

TIA-942-C新标准将原本一些硬性要求予以松绑,以利符合不同地方的条件。此外Micro Edge Data Center算是新增的一环,也让TEAM(Telecom、Electrical、Architectural、Mechanical)4个范围允许接受更多的新技术。DIGITIMES摄

TIA-942-C新标准将原本一些硬性要求予以松绑,以利符合不同地方的条件。此外Micro Edge Data Center算是新增的一环,也让TEAM(Telecom、Electrical、Architectural、Mechanical)4个范围允许接受更多的新技术。DIGITIMES摄

建造机房就像建造房子,务须满足住户需求。以往主要满足CPU或一般Service,如今AI数据中心以GPU设备为主,与一般需求截然不同。DIGITIMES摄

建造机房就像建造房子,务须满足住户需求。以往主要满足CPU或一般Service,如今AI数据中心以GPU设备为主,与一般需求截然不同。DIGITIMES摄

2024企业机房论坛,在EPI数据中心亚洲区导师/顾问李裕后的演讲揭开序幕,而他探讨的主轴为TIA-942-C数据中心标准更新。李裕后首先介绍EPI,该公司于1987年在英国成立,使命就是保护客户利益,至于如何保护?主要仰赖三个部分,包括数据中心的设施认证、数据中心的营运认证,乃至人员训练与认证。多年来EPI获得许多奖项,其中包含TIA Gold Leader。

在2024年5月,TIA-942-C新标准正式出炉。他认为有几个较重要的改变影响,首先是将TIA-942后面几个附录(Annexes)从Informative变成Normative层级,真正跃升为稽核标准。像是附录A,需要和其他工程师协议安排机柜、空调、消防、照明…等设施在现场的位置。除此以外,包括附录B、C、D、F等项目同样需要遵循。

其次拥有重要影响性的部分,在于将Rating Table纳为正式标准的一环,共计有4个Rated等级,其中显着的变革为「Focus on Outcomes」,以往TIA有众多规范、蕴含不少硬性要求,现在趋向松动,以「Outcomes」为依归,端看你能否达到预期目标,不再硬性指定某种方法,赋予更多弹性。

另针对标准当中的一些用语,写得更清楚,如Rated-3的「Concurrently Maintainable」,意指在维护设备时,不要干扰IT运作;上一版仅针对空调、电力等设施做规范,现在加上安全性考量。至于Rated-4的「Fault Tolerant」则更加清楚,意指一边挂掉、另一边自动起来,不能手动。

总结来说,TIA-942-C将原本一些硬性要求予以松绑,以利符合不同地方的条件。此外Micro Edge Data Center算是新增的一环,也让TEAM(Telecom、Electrical、Architectural、Mechanical)4个范围允许接受更多的新技术。关于Certification,业主可选择停留于TIA-942-B,或立即升级到TIA-942-C。

数据中心启动绿能转型,逐年减少灰电用量

接着由中华电信高级工程师薛人豪开讲,他引述OVUM报告指出,亚洲地区含台湾在内多数企业,偏好进驻网络中立性数据机房,目前中华电信推动的机房亦朝此目标前进。

另中华电信有监于香港、新加坡皆因海缆较多之故,得以在亚洲数据中心名列前茅,故近年积极投资海缆。除重视网络资源外,中华电信亦大力拥抱绿能,希望2030年IDC用电100%由再生能源支应、不再掺杂灰电。

为顺应政府或企业用户不同应用需求,中华电信供应多元冷却方案,除最基本下吹式空调外,也开始提供风墙,将单柜用电推升到8~20kW;甚至提供水冷背板、直接液冷、沉浸式等方案,支持更高的单柜用电量。此外中华电信近期与Equinix启动合作案,若客户规划在海外设点,可由中华电信提供一条龙服务,包括提供顾问、协助向当地Equinix下单。

透过3D可视化管理,延长机房设施Uptime

伊顿飞瑞伊顿产品行销与应用协理江嘉伦表示,数据中心管理者经常面临诸多挑战,主要可归纳为7大重点,包括资产管理、容量管理、动力管理、环境监控…等。

因此多数管理者皆期望拥有单一融合平台,一次看到所有状况。为此伊顿提出Brightlayer Data Center Suite数码整合平台,将其现在与未来所有设备软件建构于此;且Brightlayer为开放架构,用户可藉由编程、整合或套用预置模块,甚至随时调整功能设置,实现各种管理目标。

更重要的,Brightlayer以数码分身(Digital Twin)技术为基底,以合宜的授权成本为前提,协助企业快速制作3D模型、实现数码虚拟机房,达到数据中心最高可视性,以利实时采取控制、追踪、变更或优化等手段,延长机房设施的Uptime。

90%液冷+10%气冷,支持136kW单柜热密度

Vertiv Taiwan大客户业务暨热管理技术顾问王仁佑指出,Vertiv是一家专为信息机房提供关键基础设施的全球供应商,End Market部分以数据中心为最大宗。

随着GenAI Server、HPC需求涌现,造成Hot Chips等重大影响,使目前承载超级运算服务器的机柜功率密度达到1.2kW,较过往200~300W大增逾5倍,驱使许多企业思索如何加速建置AI机房,期望选用适当的冷却系统,实现PUE降低效果。

综观电力系统,从低压配电盘、UPS、信息机房Busway,直到终端机柜里的PDU,Vertiv皆有完整方案。至于Cooling,更是Vertiv最前身Liebert的起家强项,举凡精密空调箱或液冷时代的CDU都可供应。现已能透过「90%液冷+10%气冷」配置模式,支持单柜热密度136kW,助客户从容布局AI运算。

永续长青订阅模式,避免产生过多电子废料

Pure Storage技术经理杨建国强调,随着法规实施,使净零碳排不只是口号,已形成具体的遵循压力;另上游业者开始要求下游厂商提供绿电承诺与保障,许多厂商为避免订单流失,亦需设法提升减碳能力。

肇因于GPU Server启用,可预见数据中心将成为吃电大怪兽。为解决此难题,Pure Storage做了几件事情,首先从2012年至今不断改进产品执行效率和节能管理机制,使每TB耗能大降逾200倍。

其次透过致力打造高密度DFM闪存、强化数据减量能力、营造永续长青的机体设计等3大方向,协助企业实践节能减碳。譬如Pure Storage提出Evergreen订阅模式,承诺每3年为客户更换新控制器,以延长储存设备使用年限,既减少电子废料产生,也帮助客户卸除数据迁移、停机安排等管理重担。

云间航行,务须强化跨云网安管理

Palo Alto Networks云端网安架构师张仁江指出,现在许多企业有跨云需求,需要在云间航行过程采取适当网安策略。

虽说公有云业者可协助分担一些风险与责任,但综观企业网安拼图,其实很大一块落在跨云管理。以AWS、Azure、GCP、Oracle和Alibaba五大云而论,彼此细部设定天差地远;加上CLI、Web Console、IaC不同管理方式,在在徒增跨云管理的复杂度,也提高跨云网安管理难度。

所幸Palo Alto的Prisma Cloud,提供完善的跨云自动化风险检查与管理机制,内含逾1,500种开箱即用的设定检查规则、逾75种法规架构及最佳实践,辅以对自定义政策的高度可视性,足以协助客户检查云端设定、厘清应用程序有无符合最佳安全设定,轻松实现良好的跨云网安管理。

策略化、数码化、脱碳化,实现绿色数据中心

施耐德电机永续发展事业部经理刘彦均表示,其有感于气候变迁、全球升温趋势下,企业亟需落实永续策略,因此提出三步骤方法,以协助数据中心进行永续转型。

他强调数据中心是数码世界的基石,根据IDC研究报告,数据中心将在往后20年内增加两倍容量;足见今后信息机房的能源耗用状况令人忧心,凸显永续转型必要性。

为因应市场压力与趋势,施耐德提出三步法,包括策略化、数码化、脱碳化。先依据自身能源耗用情况,设定净零排放目标,包含绘制永续转型减碳路径图;其次利用数码化方式,针对能源使用实施更精细化与透明化管理;再来导入再生能源,乃至在价值链上下游进行减碳,实现永续转型的最后一里路。

国网中心擘建超级电脑,支持HPC与AI发展

国家高速网络与计算中心组长王顺泰指出,该中心现已拥有大量对外营运的超级电脑主机。2017年建置台湾杉一号,共630台节点、效能为1.7 PFLOPs。2018年建置台湾杉二号,共252台V100 GPU节点、效能为9 PFLOPs。2020年建设台湾杉三号,共900台节点、算力为2.7 PFLOPs。

去年底(2023)国网中心建置台湾杉四号、现更名创进一号,旨在取代今年下线的台湾杉一号;其内含40台ARM节点、552台x86节点,算力为3.5 PFLOPs。此外国网中心今年针对晶创计划,建置新一代高速运算主机,整个采用GPU架构,以满足大型生成式语言模型训练需求,同时提供AI运算共享服务,预计算力可达16 PFLOPs,可望成为台湾最快的高速运算主机。

上述大型主机所在的机房基础设施,涵盖极早期侦烟系统,负责侦测主机或缆线因高温所释放的粒子气体,及早通知管理者。机柜排列分为封闭式冷通道、封闭式热通道,各有各的好处,端看机房实际状况来选择。另外有环控系统,针对机房内温度、湿度、冷却、空调、电力等因子进行监控与管理。

而大型主机对电力的要求,与一般设备有4点不同。一是分类,其采取丛集架构,其间每台服务器的工作不同,须根据功能特性做分群,再依其关键性配置不同供电系统。二是持续性,为主机登入、储存、管理等关键节点群接上UPS,避免因断电而停止服务。三是稳定性,针对电力运转效率、供电品质及电网可靠度有更高要求。四是平衡,特别注意三相电流平衡,避免造成主机温度上升、效率下降。

正确启用GPU与CPU,加速驱动生成式AI发展

AWS SSO Compute Go-To-Market Specialist Miley Shih表示,现在AWS运算服务Instance Type达750种,若以供应商区分,除大家熟知的Intel、AMD和NVIDIA外,另有一项与节能减碳至为相关的CPU,即是AWS自研芯片Graviton。

论及生成式AI,大家都关注GPU,其实如果放大检视整个生成式AI履历,从前面的数据收集、数据分析处理,乃至后端完成推论后产生应用程序,可能透过API来Trigger模型,这几段并不适用GPU平行运算架构,宜以CPU为依归,否则会有大材小用之感,此即为Graviton派上用场的地方。

Graviton适用的场景甚多,例如在GenAI历程中执行Hadoop、Spark等大数据分析服务;它相较于x86的优势在于高性价比,若以执行相同Workload做比较,Graviton比起x86成本便宜20%、效能高出20%、排碳量减少60%。

规划液冷管线,满足新一代GPU设备散热

林口长庚人工智能核心实验室副主任林器弘,从User角度,分享医疗AI高速运算需求下的电脑机房规划之道。

他指出随着生成式AI爆红,由下而上带动基础层、数据层、应用层各项需求同步攀升,也促使林口长庚决定兴建新的AI机房。建造机房就像建造房子,务须满足住户需求,以往主要满足CPU需求、或一般Web Service需求,如今AI数据中心以GPU设备为主,与一般需求截然不同;以机柜功率密度来看,过往CPU机柜多落在2~18 kW,反观GPU机柜可能动辄30、50、100甚至200kW,差异极大。

无论如何,最终需要做出一个能让AI安稳进驻的机房,举凡可靠度、技术创新性都值得考虑,像是配电、绿电,乃至水路、空调回收应用,甚或进一步关于信息安全、实体安全,每个环节皆需审慎评估。

谈到林口长庚的人工智能核心实验室,2015年成立时仅使用约3坪小机房。2018年启用的二代机房,是与信息部门合作建构而成,其中配置大量GPU设备。因不敷使用,现已展开三代机房建置规划,期望具有更好的AI训练和推论效率,及更安全可靠的参观动线与作业环境,且可通过Tier 3认证。另预估后续新的GPU设备需要采取液冷方式,故在新机房规划中特别保留液冷管线,并预估第一期PUE约1.26,第二期可望进步到1.09。

切实做好测试验收,确保PoE连线品质无虞

翰特科技Fluke网络认证讲师蔡少尘,以「联网供电前,智能机房PoE真的准备好了吗」为题发表演说。他表示近3~5年PoE呈现爆炸性成长,系因CCTV、WiFi…等应用愈趋普及。回顾PoE从早期IEEE 802.3 af到现今802.3bt Type 4,不论PSE端送电/PD端受电的瓦数都大增,从一开始15W/12W到现在最高90W/71.3W。

此外从前实作PoE时不太注意网络线等级,Cat 5e、Cat 6A都堪用;但目前若想使用POE++,必须使用Cat 6A、且是4对线供电。至于PoE供电类型,建议采用End-Span(末端跨接法)。

PoE供电后往往会遇到挑战,有的源自实体层缆线问题、或各线对间电阻不平衡…等。欲排除连线品质障碍,需藉助如Fluke提供的有效工具,逐一验证电缆连通性、电缆连线品质、网络可用度、PoE实际供电状态。

落实永续设计,避免制造更多电子垃圾

日立储存(Hitachi Vantara)资深技术经理林祈祯指出,以现今大环境来看,因AI等主流应用飞速发展,导致数据中心所需处理的数据量爆增,连带使能耗、碳排量持续攀升;且随着设备效能与功能汰旧换新,也加速产制更多电子垃圾。

影响所及,ESG永续、循环经济成为当今重大课题。为求身体力行实践永续目标,日立储存多年前便自许为气候变迁创新者,积极参与联合国气候变迁大会并做为主要赞助商,更藉由永续设计方法,促进储存系统延长使用寿命,并以最少元件完成产品升级换代,而非整台报废。除了运用永续概念来发展每一代产品,日立储存也致力争取ESG相关认证,譬如取得ENERGY STAR Data Center Storage v2.0认证,亦透过CFP公正机构验证其碳足硛揭露报告。

因应AI热潮,及早关注机房节能永续

台湾建筑调适协会理事长王献堂,阐释「AI(ESG)爆红,信息机房得更节能(永续)」,他强调不论节能或永续,都是企业C-Level关注重点。节能与永续之所以蔚为显学,首先拜AI发展所赐,其次是配合PUE未来目标,他预估今后水冷、液冷必成主流,如此才能将PUE压在1.3以下。

他接着说,站在顾问立场,每当遇到机房专案时,会先询问业主使用需求为何,如需要建置几柜、每柜多少用电量、PUE期望值为何…等。下一步他会综整这些需求,与国际标准Mapping,而非降格于水电工角色、看到电就插,那会是一场灾难,毕竟品质、安全都是不容妥协的要项。若用户需求不明确、标准定义不清楚,后面规划设计都会乱了套。

永续浪潮不容回避,企业必须接受它,设计对应KPI。他认为与环境有关的议题,都适合使用卡路里模型,以利洞察规划时会在哪里卡关、最佳实施路径为何,有了路径后,再据此订定里程碑,知道什麽时间该做哪些事情。

欲检视数据中心是否符合低碳,王献堂建议可研读建筑研究所公告,厘清机房建筑外壳用料所产生的「蕴含碳」,及机房用电所产生「营运碳」。至于如何改善PUE也不难,假设IT用电量为100不变,需设法将空调用电占比从过去4~5成砍半,其余损耗部分至少降几个%,才能将PUE减为1.3;倘若未来AI应用热潮延烧,动辄可见逾40kW高密度机柜,冷却方案选项反而单纯,不必再考量Crack或In Row,直接挑选水冷或液冷即可。


关键字