NVIDIA B100/B200即将出货 为何气冷散热仍为主流? 智能应用 影音
DTR0829
DTRAPP40

NVIDIA B100/B200即将出货 为何气冷散热仍为主流?

  • 李立达台北

因应NVIDIA B100/B200系列的气冷散热需求,服务器机壳高度都拉升到8~10U。李建梁摄
因应NVIDIA B100/B200系列的气冷散热需求,服务器机壳高度都拉升到8~10U。李建梁摄

服务器供应链透露,NVIDIA的Blackwell系列芯片:B100、B200即将出货,搭载该芯片的服务器系统预计第3季中后期量产,值得关注的是,搭载2种芯片出货的散热系统,仍以3D VC的气冷散热为主。

然业者也表示,B200的散热设计功率(TDP)高达1000瓦,已经是气冷能够解决的极限,接下来,液(水)冷散热才有办法解决更高瓦数,只是液(水)冷散热的渗透比率,仍须视NVIDIA的GB系列销售状况而定。

NVIDIA最新的Blackwell系列AI服务器何时出货备受瞩目,之前英业达于法说会时指出,将于年底或2025年初出货,然广达、富士康都表示,搭载最新一代NVIDIA芯片服务器将于2024年第3季出货。

供应链指出,各家都按照自家客户需求与量产行程推估出货时间,不一致本属正常,此外,各家并未说清楚到底出货的是Blackwell系列何种产品,因为B100、B200与GB200的出货时间并不相同。

供应链指出,预计第3季中下旬,搭载B100、B200的HGX系统将量产出货,在经过整机测试后出货,卡在芯片供应仍需时间ramp up,初期以小批量为主,至于GB200系列,量产时间将落在2025年。

供应链直言,目前GB200连板子都还没看到,因此无法设计、测试相关机构件、系统等,预计要等到2025年。至于B100、B200量产出货时间差不多,都在第3~4季。

服务器供应链指出,目前搭载B100及B200芯片的AI服务器散热设计,仍会以3D VC的气冷散热为主。

有趣的是,B100、B200的TDP已经分别达到800及1000瓦,服务器系统厂仍采用气冷散热。为何与散热模块厂之前宣称,500瓦以上已很难用气冷散热解决的说法不同?

系统业者解释,若单纯以散热模块来看,芯片TDP到500瓦以上确实已经濒临气冷散热的极限,然当芯片置入主机板中,可透过主机板的系统设计,强化气冷风流,解热的能力,会比单纯用模块散热强。

然业者也表示,当芯片瓦数,如同B200,已经拉高至1,000瓦,用气冷散热已经是极限,主要原因是,气冷散热需要空间,尤其是3D VC,机壳的高度需要拉高到9U、甚至10U,已是极限。

目前主流的服务器机柜高度都在42U高度,除了服务器,还需要置放网络交换器、电源供应器、防火墙,并考虑散热空间等,服务器机壳高度提高,意味能放置的服务器数量变少,也挤压其他零组件空间。

此次COMPUTEX 2024各家服务器厂摊位展出的机种,已经可看到此趋势,因应NVIDIA的B100及B200芯片,各家推出的MGX产品设计,都采气冷及高U数设计。

举例来说,美超微(Supermicro)在COMPUTEX展出的B100 HGX系统,采用8U气冷方案、B200是采用10U气冷方案。云达展出的HGX系统,分别有5U、7U与9U,其中B200搭配的是9U高度服务器。

服务器供应链指出,液(水)冷散热的解热瓦数,势必高于气冷散热,在NVIDIA掀开散热的天花板后,芯片散热需求只会往上拉升,然技术导入也须考量现实,而数据中心现实状况是气冷仍为主流。

除非新建的数据中心,会考虑后续芯片升级后的散热需求,改采水(液)冷设计,包括楼板高度、承重到水管都须重新调整,否则现有数据中心都会尽量采用气冷散热解决。

此外,有多少数据中心需要导入最高效的AI芯片?业界指出,除了AI中的训练(training)需耗费大量运算,才需采用最高效能的AI芯片,多数数据中心其实不需如此,自然也尚不需导入液(水)冷。


责任编辑:陈奭璁