AI Token耗量持续攀升—推理模型的崛起与产业重塑

徐宏民
2026-03-04
AI语音摘要
00:53

2022年下半,AI技术出现罕见的结构性转折。Frontier Model 首度同时展现出真正的泛化(Generalization)与多工能力(Multi-tasking)。

泛化意味著模型学到可扩展的语义与分析能力,能在新的指令形式与问题情境下维持稳定表现;多工则意味著同一套模型可以服务翻译、摘要、图片生成、问答等截然不同的场景应用,无需为每个任务另行训练专用模型。这个突破,使AI从针对单一任务优化的垂直工具,转变为横向的通用、高成长智能服务。同时也对供应链产生實時冲击:自2022年下半起,數據中心的算力需求全面上修,GPU短缺从研究机构蔓延至企业端,并推动整条AI供应链——从芯片、服務器到应用层——重新定位。

2024年的下一步:推理(Reasoning)登场。泛化与多工解决「能做什么」的问题,却没有解决「能想多深」的限制。对话式问答提供足够解方,但遇到需要多步骤逻辑推导的任务如解数学题、复杂程序除错、分析法律条文、科学探索、逻辑论证等,模型的能力局限就被暴露出来。

这个落差,在2024年下半开始逐步被补上。

OpenAI-o1的发布标志著推理时代的开始。推理模型呈现出更接近「System-2」的思考方式——借用心理学家康纳曼(Daniel Kahneman, 1934~2024)的框架:System-1是快速直觉式的反应,System-2是缓慢刻意的深层推理。在实际运作中,推理模型不会直接输出答案,而是先在内部展开较长的(推理)思维链(Chain-of-Thought, CoT),逐步分解问题、排查矛盾、整合逻辑,再收敛出最终回应。数学推导、程序除错、法律条文解析、医疗决策辅助——这些原本只有专业人士才能应付的复杂任务,开始出现跨越式的能力提升。

推理能力的形塑,来自几个相互强化的技术突破。最基础的是思维链CoT训练。模型在训练时被要求把推理过程一并展开,而非直接给最终答案,强迫模型在解题时学会分解问题、逐步推进。这种推理的引导,显著提升复杂逻辑任务的表现。

其次是强化学习(Reinforcement Learning)的深度整合。

模型透过持续与真实任务互动并接收回馈,逐步找出「真正有用的答案」而非「听起来合理的答案」——这成为推理品质得以持续演进的核心机制。值得注意的是,强化学习的奖励机制,也间接强化模型「用更多token想清楚」的行为倾向——更长的思维链往往对应更好的答案,模型在训练中学会以算力(更多token)换品质。

第三条路是推论时扩展(Test-Time Scaling),被视为继预训练(Pre-training)、后训练(Post-training)之后的第三条scaling law:不必重新训练模型,只需在推论(inference)阶段投入更多运算资源,让模型「想更久」,就能换取更好的答案品质。正因如此,随著用户数量增加,据报导,目前实际对用户服务时的推论运算需求,已经高于模型训练阶段的算力消耗。

推理能力的代价,直接反映在token用量上。传统问答模式下,一次查询平均消耗数百个token;推理模型因为需要展开较长的内部推理步骤,每次查询的使用量往往是传统模式的10到50倍。这种倍数效应已在市场流量结构中浮现:目前推理模型的token使用量,已占整体LLM流量的6成以上,预计会持续增长。这不只是技术规格的改变,而是整个算力需求预测逻辑必须重新计算的开始。

当推理能力成熟,一个更大的结构性转变随之而来:Agent 的崛起。

Agent (代理人)不是升级版的聊天机器人,而是具备目标驱动、自主规划与多步骤执行能力的AI系统。没有深层推理,Agent只是预先编排好的流程;有了推理,它才能在复杂流程中深度思考,做出判断、处理例外、在不确定性中高价值任务。

程序设计是第一个Agent的突破点。GitHub Copilot、Anthropic Claude与Cursor的AI coding工具,目前市占各约24%至25%,生产力提升幅度估计达1.5至3倍。从成长速度可以感受到市场反应的强度:Anthropic的年化营收(ARR)在2025年年增幅逾 800%,Cursor从1亿美元成长至10亿美元、年增达900%。法律、医疗、财务等垂直领域的跟进速度也正在加快:据报导,Harvey的法律AI ARR已达1.5亿美元。

OpenEvidence在临床医疗场景的ARR同样超过 1.5 亿美元。这些垂直应用的共同特征,在于它们都依赖多步骤推理——不只是查询數據库,而是在法条、案例与临床指引之间做出复合判断,处理真实世界中的模糊与矛盾。

推理的架构决定token耗量只会持续增加。

每个新应用场景导入、每个Agent工作流程启动,都意味著更多的思考步骤与更高的算力消耗——这是推理模型的设计本质,不会因为效率优化而消失,只会因为应用范畴扩大而放大。对半导体、服務器、高帶寬存儲器供应链而言,这是结构性的长期需求信號。

当推理能力从數字工作流程走向实体世界,影响规模可能再扩大一个量级。工厂排程、医疗诊断辅助、教育个人化、法律文件审查——这些场域一旦嵌入自主推理能力,改变的不只是工具,而是企业工作流程与人员分工的重组。这种重组很可能使对ICT基础建设的需求,从一次性的升级,转为更长期的投入。

这波AI资本投入是否会在建设高峰后趋于平缓?推理模型提供一种不同的结构性逻辑。其特性在于,应用规模的扩张会直接转化为持续性的推理运算需求,而不仅是一次性的部署成本。当前推论已成为AI算力负载的主要来源,而推理型推论的运算占比不断攀升。再加上方兴未艾的Agent架构兴起,以及各种以token消耗为核心的智能服务快速普及,算力需求将不再仅仅随模型训练周期波动,而是与日常使用频率高度绑定。

当使用深度与应用广度持续扩张,供应链从芯片、存儲器到电力基础设施所面对的需求动能,可能更接近结构性成长,而非单一景气循环所驱动。

延伸报导专家讲堂:AI愈强,Token却愈便宜

现任台灣大學信息工程学系教授,曾任富智捷(MobileDrive)技术长暨副总经理,推动ADAS及智能座舱系统产品进入全球车用市场。纽约哥伦比亚大学电机博士,专精于机器学习、电脑视觉、自驾车、机器人等领域。为讯连科技研发团队创始成员,慧景科技(thingnario)共同創始人,NVIDIA AI Lab計劃主持人;曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会,担任多家科技公司AI策略顾问。
智能应用 影音