GB200等下時代GPU功耗显著拉升 搭配气液相辅成高端AI服務器为未来3年主流方案
DIGITIMES Research观察,随著高端AI服務器运算规格与功耗快速提升,散热方案也跟随芯片处理器的演进而加速研发与量产时程,2023年生成式AI应用开始大幅成长,带来更高运算需求,也使处理器的热设计功耗(Thermal Design Power;TDP)持续上升,传统气冷方案已无法有效散热。
目前主流AI服務器多采用NVIDIA H100 HGX 8颗版本,其整机TDP达7,500W以上,较传统服務器TDP平均3,000W高出许多。而NVIDIA在2024年GTC发表GB200 NVL72单一机柜系统,搭配多达72颗GPU,整机柜的TDP预期将达120KW,更为传统通用型服務器机柜的12倍以上,高TDP也带来高散热需求,当传统气冷散热能力不足,液冷散热将成重点解决方案。
DIGITIMES Research认为,以目前技术发展与散热需求成长速度来看,气液相辅液冷散热方案短期优势较为明显,气液相辅方案除不需大幅变动服務器设计与數據中心基础架构,整体方案成本亦明显低于全液冷方案,以上优势将使气液相辅液冷散热方案成为未来3年數據中心业者的首选方案。
NVIDIA GB200、B200 GPU加速液冷散热应用 液冷散热市场规模2023~2030年CAGR将达21%
为使數據中心能够满足AI及HPC等高速运算需求,运算效能上升使功耗不断提升的同时,服務器机架功率密度也被要求提高,目前服務器平均机架功率密度为15KW,AI高速运算數據中心的服務器机架功率密度则高达100KW,高功率、高密度设计导致數據中心高能耗及高产热问题不断恶化,光凭传统气冷散热技术已无法有效散热,逐渐成熟的液冷散热方案因有更好散热能力,已开始受到巿场青睐。
DIGITIMES Research认为,2023年以前主流CPU、GPU的热设计功耗皆低于500W,搭配气冷散热方案即可有效处理机器运作所产出的热,因云端生成式AI推论与训练需求爆增,使业者对处理器、加速器的性能与功耗要求倍数提升,2023年NVIDIA发表的高端GPGPU H100,其TDP达700W,已超过500W的传统气冷散热极限,因此需采用改良式的3D均温板(3D Vapor Chamber;3D VC)气冷技术来作为H100的散热搭配,3D VC因提供较传统气冷更大的气冷散热空间,可将散热能力提升到750W。

NVIDIA于2024年3月18日发表下時代Blackwell架构的GPU新品,其中,由Grace CPU与B200 GPU结合而成的高端产品GB200,TDP达2,700W,不但大幅超越主流产品H100的700W,也较同系列前代产品GH200的1,000W为高,TDP大幅提升,已远超气冷散热解热能力,因此GB200服務器只能采用液冷散热方案。采用液冷方案的优点,一方面可直接提升散热能力及运算效率,另一方面,与气冷散热3D VC方案相比,相同解热条件下,采用液冷方案可大幅压缩服務器系统层使用的机架高度。
若从机柜的角度来看整体功耗需求,在系统机柜高度不变的前提下,单一机柜多搭配2个的H100 AI服務器,基本上透过高端气冷方案即可处理,属于高U数、少臺数,为较低密度的配置;NVIDIA的DGX GB200 NVL72 机柜系统,因包含36个Grace CPU和72个B200 GPU,加总后,每个GB200 NVL72机柜TDP至少在120KW以上,其高密度及高功耗的设计将只能以液冷方案处理,属于低U数、多臺数,为高密度配置。
由上可知,高端AI服務器不断往高算力与高运算密度发展,将成为液冷散热巿场的主要成长动能。根据调研机构MarketsandMarkets预测,全球散热市场规模将从2023年127亿美元成长至2030年296亿美元,年复合成长率(CAGR)达13.43%。其中,液冷市场规模成长幅度最为明显,预估从2023年26亿美元成长至2030年89亿美元,年复合成长率达21.9%。
液冷散热市场的成长主要源于大型云端业者新建置的高速运算數據中心,而非一般型态的數據中心。目前一般型态數據中心仍以气冷散热为大宗,也因一般型态數據中心的应用、需求已处成熟阶段,连带使主要的气冷散热技术成长亦较有限,但占比预期至2030仍过半。

水对气及水对水液冷散热方案各拥优势 短期以水对气液冷方案机会较佳
服務器与數據中心散热可简单分为气冷散热、液冷散热、浸没式散热等三类方案,气冷散热方案发展最成熟,也是目前數據中心及服務器渗透率最高的方案。浸没式方案因环保问题及对现有數據中心改动极大,目前仍处初期发展阶段。技术、巿场逐渐成熟的液冷散热方案主要分成两种模式,一种是液态对气态(Liquid to Air;L2A),又称水对气方案,另一种是液态对液态(Liquid to Liquid;L2L),又称水对水方案。采用冷却液的部分则可分为水冷和油冷两类,由于油冷方案散热效率较差,因此水冷方案为目前业界采用的主流方案。

液冷散热的基本原理是使用液体冷却剂吸收和转移服務器内电子组件(例如处理器和存儲器模塊)的热量,透过液体的高热容量和优异的导热性,液冷散热可使电子组件维持在最佳工作温度,增加电子组件的能源使用效率。由于液体的导热性是空气的25倍,液冷散热系统可大幅减少传统空调机组的工作负载,使數據中心可节省高达90%的能源。
液冷散热中不管是水对水还是水对气方案,两者所需料件上有许多相似处,如冷却液分配装置(Cooling Distribution Unit;CDU)是关键的组件之一,其可控制冷却介质的流动速度和温度,并将其分配至系统中需要冷却的物件,使设备适度降温。CDU亦提供监控和调节功能,可用来做故障检测及优化能源使用效率,而最佳化的CDU运作可确保整个服務器系统的高效与稳定性,其次重要组件为液冷板(cold Plate)与分歧管(manifold)。
上述三者为液冷散热料件代表,在服務器机柜中会看到液冷板直接贴合于运作中的处理器上方,热水透过分歧管流出进入CDU,再透过CDU与分歧管控制水路,让冷水流经液冷板达到散热,作为一个循环,此为液冷散热水对水与水对气两种方案中运作相同点。
■ 水对气液冷散热方案结合气冷散热优势 将成未来3年热门散热方案
水对气液冷散热方案可说是介于气冷与全液冷方案间的一种折衷方案,其采用了部分气冷与部分液冷,同时发挥它们各自的优势,其散热能力虽不如水对水,但因不需大幅改动服務器机柜架构,以及建置數據中心外部水冷循环系统架,仅在相同机柜架构中增加液冷系统、背门与风扇即可运作,导入速度较快,资本支出也较低。
水对气方案的主要组成包括了冷却液、液冷板、分歧管、冷却液分配装置、背门、风扇等。其中,CDU是最关键的组件之一,其像是机柜液冷系统的中枢神经,可控制冷却介质的流动速度和温度,并将其分配至系统中需要冷却的物件,使设备适度降温。

水对气的散热循环可分为液冷循环及气冷循环的部分,其中液冷循环的过程如下,冷却液经由冷分歧管流经直接贴合于芯片上的液冷板,透过金属导热带走芯片产生的热量,再将热量有效地转移至冷却液,温度升高的冷却液透过热分歧管流出液冷板,并在离开热源后逐渐冷却进入CDU,CDU将控制冷却液的降温状况,并将降温完成的冷却液重新导入冷分歧管,完成一次循环。
CDU作为水对气液冷系统组件的一部分,能够在更高的效能和密度下处理热量,是通过直接与高功耗元件接触,将热量有效地转移至液体冷却介质,然后远离计算元件的方式运作达到散热效果。
由于水对气的液冷循环路径仅限于机柜周遭,较短的路径不利冷却液自然冷却,因此加入了气冷循环的设计。水对气的气冷循环作法,主要是在机柜背门上安装风扇或排热装置,加入气冷循环不但可为冷却液加速降温,也能同时享有气冷的优点。
水对气的气冷循环部分除可选择一般背门搭配液冷风扇,目前更受巿场欢迎的是采用门热式背门(Rear Door Heat Exchanger.RDHx)的特殊设计,RDHx是通过在机柜背部安装一个门式冷却单元,使得冷却风流经机柜的每个单元,确保高效能元件均匀冷却。这样的设计在维持系统稳定运行的同时,也为CDU提供了更有效的热交换界面,且水对气的RDHx属于主动式散热在液冷机柜实际设置时,可不需使用外部冷却塔或冰水机,这对于數據中心在选择采用液冷散热方案上增加好处,其可额外减少能源使用。
DIGITIMES Research认为,水对气的液冷散热方案CDU搭配RDHx的组合优势极具潜力,不仅是由于其卓越的散热性能,更因为其能够实现节能、与应对高效能的运算环境等优势,这对于數據中心的可持续性发展至关重要,特别是在大规模數據中心和高性能运算集群中,可成为不改变數據中心及服務器架构下,转换散热方案最佳选择。
■ 水对水液冷散热方案需更动數據中心基础架构 建置成本与复杂度皆提升
第二种液冷散热为水对水(L2L)方案,其是基于水对气(L2A)设计延伸而来,在机柜内部水对水的运作方式与水对气相同,但相较于水对气的循环范围仅限于柜柜周遭,水对水方案则会将冷却液送往更大的散热设备进行更全面的散热。
水对水方案则透过加装流量控制阀、板式热交换器,以及机柜外部环境冷却塔设备,在机柜内液冷板与分岐管透过管中液体将热带出,管中冷却液体吸收了热能后,会经过CDU透过循环泵送到冷却机,带入冷却塔后冷却的液体会流回CDU再分配到机柜内的分岐管中,继续吸收热能,进行液体冷热交换作为一个循环。

水对水的液冷散热方案适用于本身已有冷热水管配置冷水塔的數據中心,与水对气的运作方式不同处为水对水的散热方式不是透过机柜上所安装的风扇进行冷却交换,而是透过數據中心环境中所设置的冷却塔进行液体的降温散热处理。虽与水对气的液冷散热方案相比不需要采用背门与风扇,但在數據中心环境中则需从服務器机柜外接至冰水主机或是水塔等基础设施来进行降温循环散热。
与水对气液冷散热相比,水对水的液冷散热方式散热效率又更高,能源消耗更低,也因为不需要使用高功率的液冷风扇,所以噪音产生的问题也相对降低许多。但因液冷方案中水对水的模式需要在數據中心环境做基础设施的调整,包含冷水塔及水箱的建置等,而水对水液冷散热方案的數據中心完整建置通常需要约3至5年的时间,因此应用发展速度上目前来说没有水对气液冷散热方案来的快。
总而言之,短期间内數據中心如要以既有的环境来做散热改良提升,水对气的液冷散热方案将会是目前最佳选项。如推导散热主流发展趋势,以數據中心建置所需时间来推估,液冷散热方案主流将会在2027年开始,届时技术的成熟与數據中心的建置完成可使水对水液冷散热在數據中心需求成长显现。
液冷散热方案组成复杂度与零组件单价皆显著高于气冷散热方案
气冷散热与液冷散热因组成料件不同而产生成本结构上的差异,单一服務器机柜气冷散热成本约落在0.5万~2万美元,而液冷散热成本则可达5万~20万美元,甚至更高,成本范围差异较大主因与机柜中的服務器系统数及芯片总量有关。液冷散热因单价高的CDU、分岐管,液冷板及风扇,加上其他零组件皆较复杂,预期总成本为气冷散热系统的5~10倍。
气冷散热的料件成本组成中,风扇价格约在2,000~8,000美元,占服務器气冷散热总成本约半,而液冷散热组成成本近半则由CDU所构成,CDU价格约在1万~4万美元,其次为液冷板、分歧管与背门。

不管是水对水还是水对气液冷散热,重要组件液冷板皆是与处理器/加速器成对贴合组成,因此用量与处理器、加速器的数量一致,分歧管使用套数则与服務器整机数量相关,液冷板与分岐管两者材料都属于在服務器液冷系统使用量较多且单价较高,可说是除了CDU以外影响整体液冷散热系统价格相对较大的两种料件。
此外,在液冷散热方案中,水对气方案的背门可选择采用风扇背门或是RDHx背门,而水对水的背门大多是不具备风扇的液冷背门,但因属于定制化比例较高的料件,占服務器机柜散热系统成本达1~2成。
值得一提的是,水对气液冷方案中采用的冷却风扇与传统气冷并不相同,成本通常较高,主因液冷散热系统所吸收的热需要更大型和更强力的冷却风扇,以确保有足够的风量和压力来有效地将冷却液所带出的热从系统中排出。相较下,气冷系统中使用的风扇因主要是将散热金属板所吸收的热降温,通常较小且功率较低,因此成本较低。
其次,液冷系统中的冷却风扇需要应对更复杂的工作环境和操作要求。这包括在潮湿环境中保持稳定运行,以及在高温或极端温度变化下维持性能。为了满足这些要求,厂商会对液冷系统中的冷却风扇进行特殊设计和工程改进,将会进一步提高成本。
气冷方案散热能力差但部署较易 液冷散热效率更佳但初期成本较高
DIGITIMES Research将气冷散热与两种液冷散热方案进行比较,首先,散热能力由低到高,分别是气冷散热最高仅500W、3D VC气冷散热可到750W、水对气液冷散热1,000W、水对水液冷散热达1,500W,可看出液冷散热解热能力显著优于气冷。
高密度效能亦为液冷优势,高密度效能指的是在高密度情况下处理热的能力,以750W的散热目标为例,气冷散热采用3D VC需要最少3U以上的机架高度,但如采用液冷方案,机架高度可以压缩到2U以内,在目前服務器机架密度提升的趋势中,液冷散热属优势方案。
随著數據中心业者对于电力使用效率(Power Usage Effectiveness;PUE)的关注日益提高,导入散热方案的选择变得至关重要。气冷方案的PUE大约介于1.2至1.5间,而水对气液冷方案的PUE可达到1.1,进一步的水对水液冷方案更可将PUE降至1.05。因液冷系统能够有效地降低數據中心的能耗,同时提高散热效率,从而实现更环保、更节能的运作,因此,在目前业者普遍将PUE目标设定在1.2内,液冷方案将在數據中心设计中扮演日益重要的角色,未来液冷方案应用将逐渐成为主流。

气冷与液冷散热方案的选择,不仅影响服務器整体成本结构,更会影响总建置成本。与气冷方案相比,液冷方案最大优势在于高解热能力、高密度效能比及低PUE等,然而在部署灵活性、总建置成本、结构复杂度来看,液冷散热则不如气冷散热。然在服務器密度越来越高的前景下,采用液冷散热才能够最大化的压缩系统高度,提升机柜密度,因此,在算力需求要求最高的加速器丛集數據中心中,液冷散热将是主要选项。
结语:
DIGITIMES Research认为,生成式AI发展需求带动數據中心业者加速对于高速运算數據中心的布局与建置,同时推升高端服務器与數據中心的散热需求,气冷散热走向液冷散热时代已到来,过去液冷散热因其成本高昂与需求较少而甚少被探讨,如今高功耗所带来的散热需求将需由液冷散热解决。整体而言,气冷散热巿场已步入较为成熟阶段,未来成长空间较为有限,液冷散热则将开始进入高速成长阶段。
而水对水液冷散热,因數據中心搭配的液冷循环相关基础建设建置需求,约需要2~3年的建置前置时间,因此,短期内水对气的液冷散热方案将成为主流,并预期數據中心业者将积极加快水对水液冷散热方案的建置时程。未来在运算需求及高能源使用效率的持续成长下,即使是水对水液冷散热亦可能提早面临散热瓶颈,尚在发展初期的浸没式液冷方案预期未来需求将有一席之地。
当前浸没式液冷业者虽积极开发可行方案,然浸没式液冷不仅需考量散热效果,也需处理电子零件长时间浸泡于液体中可能产生的损坏风险。目前浸没式液冷在发展上仍属试验期,技术尚不够成熟,估AI服務器与數據中心短中期应用仍将以水对气与水对水的液冷方案优先。
若想立刻加入付费"Research"会员,请洽询
客服专线:
+886-02-87125398。(周一至周五工作日9:00~18:00)
客服信箱:
member@digitimes.com (一个工作日内将回复您的来信)
- 追溯至2000年,洞察产业脉动
- 优质报告,助攻精准决策
- 八大主题,23产业频道涵盖
- 七大全球数据库,掌握市场趋势