NVIDIA CPO产品蓝图确立 台积电COUPE助攻「下一个万亿美元」AI战场
共同封装光学(CPO)正逐步成为AI基础设施的核心架构。
随着NVIDIA最新Scale-Up CPO交换器发展蓝图确立,从Blackwell、Rubin、Rubin Ultra到Feynman时代,单一AI机柜带宽将从130TB/s,一路提升至突破1PB/s(Petabyte)等级,全球AI竞赛已从GPU算力之争,升级为光互连、矽光子与共同封装光学的全面竞赛。
NVIDIACEO黄仁勳先前定调,未来AI数据中心先是「光铜并行」,短距传输仍以铜缆为主,然而,当AI丛集规模扩张至数十万颗、甚至百万颗GPU后,机柜与机柜之间、数据中心与数据中心间的超高速数据传输,将高度依赖矽光子与CPO技术。
据NVIDIA最新Scale-Up CPO交换器蓝图,Blackwell平台采用NVLink 5架构,单一GPU双向带宽达1.8TB/s,单颗Switch ASIC总交换带宽达14.4TB/s,相当于115.2Tbps,NVL72机柜总带宽约130TB/s。
2026年Rubin时代升级至NVLink 6后,单一GPU双向带宽提升至3.6TB/s,Switch ASIC交换带宽倍增至28.8TB/s,相当于230.4Tbps,NVL72机柜总带宽达260TB/s。
2027年Rubin Ultra导入NVLink 7后,单一GPU双向带宽进一步提升至7.2TB/s,Switch ASIC交换带宽达57.6TB/s,相当于460.8Tbps,单一机柜总带宽提高至520TB/s。
真正转折点将出现在2028年的Feynman时代。NVLink 8将单一GPU双向带宽提升至14.4TB/s,Switch ASIC交换带宽达115.2TB/s,相当于921.6Tbps,单一机柜总带宽更将突破1,040TB/s,正式跨越1PB/s门槛。
短短4~5年间,单一AI机柜带宽需求暴增超过8倍。供应链人士指出,当带宽需求迈向PB等级后,传统铜缆在信号衰减、功耗、散热与延迟等方面皆已接近物理极限,光学互连与CPO已成为AI工厂持续扩张的「唯一解方」。
供应链业者表示,AI系统已从单一GPU产品演进至AI Factory架构。2026年Rubin平台包括Rubin NVL8 HGX与Vera Rubin NVL72系统。其中,Rubin NVL8 HGX配置8颗Logical GPU、16颗GPU Die;Vera Rubin NVL72则扩大至72颗GPU、144颗GPU Die,并采用Oberon机柜架构。
2027年Rubin Ultra进一步扩张。Vera Rubin Ultra NVL72配置72颗GPU与288颗GPU Die;NVL144增加至144颗Logical GPU与576颗GPU Die,并开始导入Kyber机柜架构。
NVL288系统则提升至288颗GPU与1,152颗GPU Die,由两座Kyber机柜构成;NVL576则配置576颗GPU与2,304颗GPU Die,由8座Oberon机柜组成。
2028年Feynman时代将推出NVL72、NVL144及最大规模的NVL1152系统。其中,Feynman NVL1152将由8座Kyber机柜组成,拥有1,152颗GPU,成为真正的超大型AI工厂核心运算节点。
值得注意的是,NVIDIA在机柜对机柜间互连技术的演进,也规划CPO导入时程。
Rubin NVL8 HGX采用UBB PCB设计;Vera Rubin NVL72改采铜背板(Copper Backplane);Rubin Ultra NVL144则进一步采用PCB Midplane与Flyover Cable设计;NVL288则导入PCB Midplane加Flyover Cable及Copper Backplane;而关键转折出现在Rubin Ultra NVL576,将首度在机柜间导入CPO (DR Optics),宣告Scale-Up架构开始进入光学互连时代。
最大规模的Feynman NVL1152则直接导入CPO,包括DR及密集波分多工(DWDM)架构,代表未来AI工厂内部已由电子传输迈向光子互连。
传统交换器主要透过铜线将信号传输至前面板,再由光模块进行光电转换;但在CPO架构下,OE直接输出光信号,需先经由光纤阵列单元(FAU)完成光束转向与耦合,再导入机内光纤。
由于单一CPO交换器内部可能配置数百条甚至上千条光纤,光纤管理复杂度大增,因此产业开始导入Shuffle Box或光纤配线模块进行整理与模块化管理。
机内光纤另一端则透过MMC、MT等高密度连接器连接至前面板,前面板再配置MPO界面及外部雷射光源模块(ELS),支持外部光纤连接与雷射光源供应。
因此,相较于传统铜缆交换器架构,CPO系统新增FAU、机内光纤、高密度光纤配线模块、多种连接器以及外部雷射光源等大量新元件,意味着全球光通讯供应链将被全面重塑。
目前LPO、NPO及XPO等过渡性方案已陆续出现,然而,CPO已确立为未来大势,现阶段全力克服成本与良率问题。
以台积电COUPE技术为例,首先采用7纳米制程生产EIC,并以65纳米制程制造PIC,之后将EIC晶粒切割,与PIC晶圆进行混合键合,再经切割与封装后形成光引擎,但每道制程都存在良率挑战,由于单一CPO交换器往往整合多组OE模块,一旦任一元件失效,就可能影响整个系统可靠性,因此各制程阶段均需大量导入测试,进一步推升后段成本。
此外,在OE与FAU的光纤对位过程中,由于需配置多组FAU,光纤对准精度要求极高,良率控制也成为高成本重要因素。目前CPO后段制程成本偏高,反映封测、组装流程仍有相当大优化空间,量产导入时程及成本下降速度仍待观察。
责任编辑:何致中







