AI Token耗量持续攀升—推理模型的崛起与产业重塑

徐宏民

2026-03-04

AI语音摘要

00:53

2022年下半，AI技术出现罕见的结构性转折。Frontier Model 首度同时展现出真正的泛化（Generalization）与多工能力（Multi-tasking）。

泛化意味著模型学到可扩展的语义与分析能力，能在新的指令形式与问题情境下维持稳定表现；多工则意味著同一套模型可以服务翻译、摘要、图片生成、问答等截然不同的场景应用，无需为每个任务另行训练专用模型。这个突破，使AI从针对单一任务优化的垂直工具，转变为横向的通用、高成长智能服务。同时也对供应链产生實時冲击：自2022年下半起，數據中心的算力需求全面上修，GPU短缺从研究机构蔓延至企业端，并推动整条AI供应链——从芯片、服務器到应用层——重新定位。

2024年的下一步：推理（Reasoning）登场。泛化与多工解决「能做什么」的问题，却没有解决「能想多深」的限制。对话式问答提供足够解方，但遇到需要多步骤逻辑推导的任务如解数学题、复杂程序除错、分析法律条文、科学探索、逻辑论证等，模型的能力局限就被暴露出来。

这个落差，在2024年下半开始逐步被补上。

OpenAI-o1的发布标志著推理时代的开始。推理模型呈现出更接近「System-2」的思考方式——借用心理学家康纳曼（Daniel Kahneman, 1934~2024）的框架：System-1是快速直觉式的反应，System-2是缓慢刻意的深层推理。在实际运作中，推理模型不会直接输出答案，而是先在内部展开较长的（推理）思维链（Chain-of-Thought, CoT），逐步分解问题、排查矛盾、整合逻辑，再收敛出最终回应。数学推导、程序除错、法律条文解析、医疗决策辅助——这些原本只有专业人士才能应付的复杂任务，开始出现跨越式的能力提升。

推理能力的形塑，来自几个相互强化的技术突破。最基础的是思维链CoT训练。模型在训练时被要求把推理过程一并展开，而非直接给最终答案，强迫模型在解题时学会分解问题、逐步推进。这种推理的引导，显著提升复杂逻辑任务的表现。

其次是强化学习（Reinforcement Learning）的深度整合。

模型透过持续与真实任务互动并接收回馈，逐步找出「真正有用的答案」而非「听起来合理的答案」——这成为推理品质得以持续演进的核心机制。值得注意的是，强化学习的奖励机制，也间接强化模型「用更多token想清楚」的行为倾向——更长的思维链往往对应更好的答案，模型在训练中学会以算力（更多token）换品质。

第三条路是推论时扩展（Test-Time Scaling），被视为继预训练（Pre-training）、后训练（Post-training）之后的第三条scaling law：不必重新训练模型，只需在推论（inference）阶段投入更多运算资源，让模型「想更久」，就能换取更好的答案品质。正因如此，随著用户数量增加，据报导，目前实际对用户服务时的推论运算需求，已经高于模型训练阶段的算力消耗。

推理能力的代价，直接反映在token用量上。传统问答模式下，一次查询平均消耗数百个token；推理模型因为需要展开较长的内部推理步骤，每次查询的使用量往往是传统模式的10到50倍。这种倍数效应已在市场流量结构中浮现：目前推理模型的token使用量，已占整体LLM流量的6成以上，预计会持续增长。这不只是技术规格的改变，而是整个算力需求预测逻辑必须重新计算的开始。

当推理能力成熟，一个更大的结构性转变随之而来：Agent 的崛起。

Agent （代理人）不是升级版的聊天机器人，而是具备目标驱动、自主规划与多步骤执行能力的AI系统。没有深层推理，Agent只是预先编排好的流程；有了推理，它才能在复杂流程中深度思考，做出判断、处理例外、在不确定性中高价值任务。

程序设计是第一个Agent的突破点。GitHub Copilot、Anthropic Claude与Cursor的AI coding工具，目前市占各约24%至25%，生产力提升幅度估计达1.5至3倍。从成长速度可以感受到市场反应的强度：Anthropic的年化营收（ARR）在2025年年增幅逾 800%，Cursor从1亿美元成长至10亿美元、年增达900%。法律、医疗、财务等垂直领域的跟进速度也正在加快：据报导，Harvey的法律AI ARR已达1.5亿美元。

OpenEvidence在临床医疗场景的ARR同样超过 1.5 亿美元。这些垂直应用的共同特征，在于它们都依赖多步骤推理——不只是查询數據库，而是在法条、案例与临床指引之间做出复合判断，处理真实世界中的模糊与矛盾。

推理的架构决定token耗量只会持续增加。

每个新应用场景导入、每个Agent工作流程启动，都意味著更多的思考步骤与更高的算力消耗——这是推理模型的设计本质，不会因为效率优化而消失，只会因为应用范畴扩大而放大。对半导体、服務器、高帶寬存儲器供应链而言，这是结构性的长期需求信號。

当推理能力从數字工作流程走向实体世界，影响规模可能再扩大一个量级。工厂排程、医疗诊断辅助、教育个人化、法律文件审查——这些场域一旦嵌入自主推理能力，改变的不只是工具，而是企业工作流程与人员分工的重组。这种重组很可能使对ICT基础建设的需求，从一次性的升级，转为更长期的投入。

这波AI资本投入是否会在建设高峰后趋于平缓？推理模型提供一种不同的结构性逻辑。其特性在于，应用规模的扩张会直接转化为持续性的推理运算需求，而不仅是一次性的部署成本。当前推论已成为AI算力负载的主要来源，而推理型推论的运算占比不断攀升。再加上方兴未艾的Agent架构兴起，以及各种以token消耗为核心的智能服务快速普及，算力需求将不再仅仅随模型训练周期波动，而是与日常使用频率高度绑定。

当使用深度与应用广度持续扩张，供应链从芯片、存儲器到电力基础设施所面对的需求动能，可能更接近结构性成长，而非单一景气循环所驱动。

延伸报导专家讲堂：AI愈强，Token却愈便宜

AI Token耗量持续攀升—推理模型的崛起与产业重塑

徐宏民台灣大學信息工程学系教授

作者其他文章

推荐活动

让AI代理为企业全面赋能 - 规划财务转型之路

Teledyne FLIR OEM 热成像 × AI 创新论坛

AI Token耗量持续攀升—推理模型的崛起与产业重塑

徐宏民 台灣大學信息工程学系教授

作者其他文章

推荐活动

让AI代理为企业全面赋能 - 规划财务转型之路

Teledyne FLIR OEM 热成像 × AI 创新论坛

徐宏民台灣大學信息工程学系教授