OCP Global Summit 2024的巡礼与回响
一年一度的OCP Summit(Open Compute Project)开放运算计划高峰会,在10月14日起于美国加州圣荷西市举行。OCP于2011年,在Meta的主导下成立,目的是藉由开放的平台,使得在数据中心的硬件建置,能有统一的规格,有助于供应链的建立。讲白话一点就是藉由标准化及多家供应商,好降低成本。拜这两年AI服务器及云端运算的蓬勃发展,今年(2024年)会场吸引超过7,000人参与,以及100个展示摊位,再加上200场以上的专题演讲,可谓盛况空前。去年的OCP的展示现场,除了美国云端业者、供应商外,几乎都是台湾厂商的天下,显示出台湾在AI运算硬件供应链上强大的实力。今年展示摊位出现几家日韩存储器,以及国内大陆服务器的制造商。延伸报导OCP扩展AI开放系统战力 NVIDIA助阵献宝GB200大会一开始的主题演讲,照例是由几家云端服务业者及主要芯片供应商(GPU/CPU)所担任。轮到英特尔(Intel)数据中心业务的执行副总演讲时,还在谈老掉牙的x86平台,听众都觉得乏味之际。台下突然间有一个人跳了上去,原来是下一场要演讲的超微(AMD),也是数据中心业务的执行副总。原来两家公司在x86平台上彼此征战这麽久,现在要开始结盟共组x86生态圈,以对抗来势汹汹的ARM CPU。接着两个人就开始介绍x86的优点,包括了可信赖的架构、指令的一致性、界面的共容性等优点。两个人还时不时的调侃对方的CPU,暗示自己的还是比对方的好。所以商场上没有永远的敌人,但因此会成为朋友吗?这个安排好的桥段,成为了当天会场上的亮点。同一个时段两家业者的CEO,也在西雅图宣布这项结盟。延伸报导ARM、高通AI PC网内互打 英特尔、超微捡到枪 x86不战而胜AI for AI 是在会议中另一个响亮的口号,但是第一个AI的意思是accelerate infrastructure,也就是要加速AI运算硬件的升级(scale up)以及平行增(scale out)。算力的需求是持续地在增加,会场上的研讨会不断地在呼吁,诸如存储器的储存空间不足,由目前的HBM3要增到HBM4。数据的传输速度需要再增快,由400 Gb要到800 Gb,甚至1.6 Tb。AI交换机处理信号的能力,也需要到 51.2 TB以上。每一机柜的电力需求,目前的NV72已经到了120 KW,会场中已在讨论250 KW的方案,甚至未来直接来到400 V或800 V直流高压系统。随着电力的增加,伴之而来的就是热的解决方案。气冷的极限在于每平方厘米可散掉100 W的热,未来的高速运算芯片,所产生的热会达到每平方厘米500 W,因此用液体来冷却是必要的途径。会场中的诸多讨论都在敦促供应商们,要将硬件升级并横向扩充,唯一没有被抱怨的是芯片的先进制程,可见我们护国神山的杰出贡献,深获各界的肯定。顺带一提的是去年整个AI数据中心的市场规模是2,600亿美元,扣掉建筑、机房地硬件设施,以及半导体中的存储器,其核心的半导体如CPU、GPU、switch ICs等就达到820亿美元的市场规模,这其中有相当的一部分是进了护国神山的口袋。会场上也观察到几件耐人寻味的事,众所周知云端服务的系统业者都希望能有定制化自研的xPU,导致几家SoC的大型公司如博通(Broadcom)、迈威尔(Marvell)、以及联发科,都开始客户端ASIC的设计服务。基于小芯片(chiplet)未来会扮演愈来愈重要的角色,SoC公司因为熟捻于供应链中的晶圆代工、EDA设计软件、封装测试等环节,未来也有可能增加提供小芯片的设计服务的事业。而ARM正挺身而出,想要建构此一生态系。目前的AI数据中心几乎是NVIDIA一个人的武林,NVIDIA有GPU、CPU、ASIC,负责scale up传输的NV link,以及 scale out传输的Infiniband,更可怕的还有CUDA的软件作业平台,以及能作为超级电脑的系统架构。NVIDIA做了上下游缜密的整合。其他公司所组成的复仇者联盟,对应的有不同品牌的xPU,负责传输的PCIe、UA link、Ultra Ethernet等。这就如同苹果(Apple)手机与Android系统的差别,再怎麽样苹果自成一格的手机,总是比其他各家使用上来的流畅,且不容易当机。延伸报导ARM来势汹汹 英特尔与超微携手x86化敌为友天下武功,唯快不破。NVIDIA对应着铺天盖地天兵天将的来袭,策略就是一年一个新机种,让竞争者疲于奔命。然而800磅的大猩猩每年要脱胎换骨一次,就必须要具备强有力的指挥系统,这就难怪NVIDIACEO黄仁勳得有40多人直接跟他报告了。