推论经济(Inference Economics)

徐宏民
2026-03-18
AI语音摘要
00:55

Token价格跌了99%,这件事过去两年已成为AI产业大趋势。但有一个数字却大幅上升:「推论(inference)」算力需求。

所谓推论,是模型训练完成后每次被呼叫服务客户产出回应的运算。超大规模云端业者与科技公司AI基础建设资本支出已达数千亿美元等级,其中推论占企业AI预算的比重已达85%,仍在攀升。

Stanford AI Index 2025记录,达到GPT-3.5等级效能的成本2年内下降280倍(透过各种TCO系统优化策略),但全球GPU出货量与數據中心功率密度要求却同步上升。

2022~2023年,AI基础建设的资本配置几乎全集中在训练,整个产业的讨论聚焦于训练算力的持续扩张。但2025年之后,这个比例已大幅翻转—在许多云端平臺的实际负载中,推论已超过训练;推论芯片市场的年销售额,预计未来5至8年成长4至6倍。

推论算力的成长需求,由3个力量相乘决定,不是累加:(1)token能力持续提升、价格快速下降,兴起大量、多样的知识领域新颖应用情境;(2)推理(Reasoning)模型让每次查询的算力消耗乘以10至50倍;以及(3)第三个力量,也是最常被忽略的一个。

第三个力量是agent的呼叫结构。

关键不在agent能做什么,而在怎么做。单一agent完成一项任务(例如AI coding),背后并非一次LLM呼叫,而是一整个循环:规划、工具呼叫、观察结果、反思、修正,再执行,通常产生10至20次LLM呼叫;多agent系统并行运作,呼叫量再乘一个数量级。除了前文提过的AI coding,Salesforce Agentforce在2025年第4季的年度经常性营收已达8亿美元、年增169%;企业端agent部署不是未来式,是现在式,而且每个部署都在以乘数方式放大推论需求。

3个力量合在一起,构成一个对市场规模的估算架构:情境数量×每个情境的推理深度×每个agent任务的呼叫次数。三者相乘,不是相加。

需求乘数的另一面,是推论硬件本身的结构性改变。Google DeepMind研究人员Xiaoyu Ma与Turing Award得主David Patterson于2026年1月在IEEE发表论文"Challenges and Research Directions for Large Language Model Inference Hardware"指出,目前没有一款现有主流GPU架构主要为训练最佳化,业界仍在用训练架构执行推论工作。推论的Decode阶段(逐一吐出输出token的过程)是memory-bound,不是compute-bound。然而过去十年,硬件发展的重心一直放在运算,而非存儲器:GPU的FLOPS成长80倍,存儲器帶寬只成长17倍,这个落差还在扩大;HBM系统成本持续上升。

论文因此提出4个研究方向——高帶寬Flash存儲器、近存儲器运算、3D存儲器逻辑堆叠、低延迟互连——尚未有厂商完整实现。

推论需求的放大,加上硬件规格尚未收敛,正在重塑芯片采购的逻辑。OpenAI 2024年在37亿美元营收下亏损近50亿美元,推论成本正是这个结构性落差的主要因素之一;大型CSP业者们的实际回应不是等GPU厂商更新架构,而是自行设计推论专用ASIC(TPU或NPU);推论负载占比愈高,自建ASIC的TCO优势就愈明显。训练丛集的采购逻辑是「跟上GPU最新時代」;推论丛集的采购逻辑正在转变为「针对自己的模型特性与流量结构定制化」。这是两套不同的供应链需求,会在不同位置开启不同的机会。

Patterson论文勾勒的研究方向,直接对应到推论丛集TCO优化的4个维度:运算端以推论专用ASIC取代GPU;通讯端以低延迟互连取代训练导向的高帶寬拓朴;储存端从HBM走向高帶寬Flash与DRAM的混合存儲器阶层;能源端把每个token的功耗列为系统设计的第一优先。4个维度都还在定义,意味著供应链格局尚未固化。

「推论经济」的崛起,为GPU服務器供应链日益固化、毛利空间收窄的臺湾业者,开启新的机会。推论ASIC的设计与制造、先进封装、存儲器异质整合,恰好落在臺湾IC设计生态系与晶圆代工、先进封装能力的交叉点上。这四个维度的硬件规格,目前仍在被定义当中,也是探寻新机会的好时机。

现任台灣大學信息工程学系教授,曾任富智捷(MobileDrive)技术长暨副总经理,推动ADAS及智能座舱系统产品进入全球车用市场。纽约哥伦比亚大学电机博士,专精于机器学习、电脑视觉、自驾车、机器人等领域。为讯连科技研发团队创始成员,慧景科技(thingnario)共同創始人,NVIDIA AI Lab計劃主持人;曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会,担任多家科技公司AI策略顾问。
智能应用 影音