近期DIGITIMES有几则报导与评论,谈及NVIDIA推出特供国内的2度降规AI芯片H20,但国内客户意愿缺缺一事。值得探讨的是,商业潜力庞大的国内内需市场缺口,究竟会由哪家半导体业者得利呢?
2023年10月,美国商务部BIS更新先进计算芯片和半导体制造设备出口管制规则,规范总算力及效能密度(总算力/晶粒面积)上限,受限制芯片包括NVIDIA的A100/A800/H100/H800/L40S系列、超微(AMD)的MI250/MI300系列,以及英特尔(Intel)的Gaudi2系列,之所以国内客户对采购H20意兴阑珊,是因为大语言/多模态基础模型,已然成为万亿级参数的军备竞赛,以H20组建的AI算力丛集,难以支持这般规模的训练任务。
国内业者的因应之道有四,一是透过各种管道购买更多的A100等受限芯片/模块/板卡;二是透过各种管道购买更多的受限绘图芯片/板卡;三是自研AI芯片;四是购买国内国内业者的AI芯片。
解法一是建制算力最理想的解方,解法二是没鱼虾也好的应对作法,但从日前图森未来被疑偷运NVIDIA A100芯片给国内遭美方阻止并调查,以及阿布达比人工智能/云端服务集团G42出脱所投资国内公司股份及切断国内供应链这两事例看来,美国的围堵力道只会愈来愈紧。解法一与解法二或早或晚会遭断粮,并非长远之计。
解法三为云端业者自研芯片,国内AI公有云有阿里云、百度智能云、腾讯云与华为云等四大巨头,真正仅供自家云端服务使用而未对外商业贩售者,仅有腾讯采12纳米制程的紫霄,但其与阿里平头哥的含光800均为AI推论芯片,非供AI训练使用。
归纳解法一、二、三后可发现,针对云端/互联网业者及服务器业者需求的商业AI训练芯片,才是国内AI算力产业链的发展关键,参与者包括云端业者旗下的华为海思、百度崑仑芯及腾讯持股21.37%的燧原科技,以及海光、寒武纪、沐曦、天数智芯、璧仞、摩尔线程、登临等业者。
会脱颖而出接收这庞大市场缺口的业者,我认为有2个条件:一是在芯片层次,取得国内拥有先进技术的晶圆代工厂、封测厂与存储器厂的策略性支持;二是在硬件/软件/应用层次能建立完整的供应链/生态系。对独立的芯片业者来说,即便取巧推动「类CUDA平台」模式,我认为仍具有高度挑战性,而在大集团旗下,拥有云端/互联网龙头业者在后强力支持的业者会更有机会,这其中我最看好华为。
华为与中芯的先进芯片合作,已然成为国内突破美国封锁的关键所系,海思昇腾910b采中芯7纳米N+2制程,下一代昇腾920则可望推进至5纳米,成为国内内部与NVIDIA H100算力落差最小的芯片。
若从生态系角度来看,华为自己在服务器主机板上除了AI芯片外,也包括鲲鹏CPU、基板管理控制器(BMC)芯片、网通芯片、与SSD控制芯片等。在其上有对标NVIDIA CUDA+cuDNN的CANN(Compute Architecture for Neural Networks)混合式运算架构,支持主流的PyTorch及TensorFlow及华为自己的昇思MindSpore等多个AI架构,更上层也有完整的算法开发与应用开发的软件堆叠。
华为服务器硬件合作夥伴包括华鲲振宇、神州数码、清华同方、宝德计算机等业者,以及多家应用软件与SI业者。观察其客户名单,已拿下包括百度、科大讯飞及360等指标性云端/互联网/AI公司及三大运营商。此外,国内各地都在积极建立AI计算中心,多数的标案均由华为昇腾方案得标,其中包括北京、天津、广州、杭州、重庆、成都等重点城市等。
在外有美国管制难出海,内逢经济疲软影响筹资的大环境下,再加上建立软硬件生态系的高门槛让业绩拓展无法一蹴可几,国内新创AI芯片业者普遍面临营运上的挑战,2023年陆续传来寒武纪与摩尔线程裁员、壁仞科技2位创始人离职的消息。
相较之下,作为国内事业范畴最广、掌握云端服务/电信网络到终端装置、软硬件垂直整合程度最高、公司也最赚钱的华为,看来是最有底气接收美国管制下所让出国内算力市场缺口的业者。若国内政府想要与NVIDIA CUDA脱勾,建立起全然自主可控的算力生态系,除华为外还有更好的选择吗?
DIGITIMES副总经理。美国壬色列理工学院(RPI)电机硕士暨台湾大学国际企业所博士候选人,曾带领DIGITIMES研究中心,并担任多个政府及企业委托之研究顾问专案主持人,关怀多变局势下的台湾产业发展之道。