2023年初,OpenAIGPT-4的API定价约为每百万token30美元;如今,主流前瞻模型已全面重订价格:GPT-4o mini降至0.15美元、Anthropic Claude 3.5 Haiku低至0.25美元、Google Gemini 2.0 Flash更压至0.10美元—降幅从90%到99%不等,而且仍在持续下修。这不是削价竞争,而是深层的技术与市场力量共同作用的结果,并正在引发整个AI生态系的结构性改变。
3个相互强化的力量在同时作用,支撑token价格持续下降。
首先是模型效率的快速提升。
蒸馏(distillation)将大模型的能力压缩进更小的架构,量化(quantization)降低每次运算的位元需求,混合专家架构(MoE)让推论时只启动最相关的小網絡。同样的任务,所需算力持续缩减,而且这个技术优化态势,还没止息。
其次,是系统层级的优化。
产业界已清楚Transformer推论的运算瓶颈——矩阵乘法占了绝大多数计算量,KVCache的存儲器存取效率与帶寬配置直接影响延迟,而批次处理策略则决定整体吞吐量。从编译器最佳化、推论排程到硬件与系统层的整体优化,让同一套硬件能服务更多prompt、产出更多token。
以Google为例,透过TPU与模型、系统的协同优化,在特定工作负载下推论能效出现数倍到数十倍等级的提升,显示推论成本仍有可观的下降空间。
接著是竞争格局的根本改变。
DeepSeek-R1、Meta LLaMA3、阿里巴巴Qwen2.5等开源模型持续追近闭源frontier模型的效能(约落后7个月),打破少数大厂的定价垄断。开源模型的全球部署量已占整体AI使用的约3成,也成了市场定价基准的压力源。
Token成本的持续下降,正在同步触发3个层面的连锁反应。
第一,是AI推论应用的急遽扩张。
当每百万token的成本从过去的高价模型,下降到数十分美分至数美元等级,大量原本「因成本不具经济效益」的场景开始跨越可行门槛。个人化邮件撰写、實時翻译、文件摘要、程序码生成、多语客服回复、会议纪录整理、合约审阅辅助、报表初稿产生等任务,不再只是试验性功能,而逐步成为工作流程中的常态模塊。
关键不在于成本归零,而在于边际成本已低到足以长时间、完整部署推论服务,让AI从「偶尔使用的工具」转变为持续运行的生产力工具。
第二,是Agent对工作流程的全面渗透。
低成本token是Agent得以规模化的前提。这一点已在市场成长速度上反映出来:Anthropic的营收规模近年快速进入数十亿美元级距,年增幅达数倍;Cursor等AI coding工具在短时间内从千万美元级别,跃升至上亿美元年化营收,成为成长最快的一批AI SaaS产品。这些成长快速的新创几乎无一例外地以agent或workflow automation为核心定位——无论是Anthropic、Harvey、Glean——产品路线指向的是自主代理与垂直工作流程整合,而非单纯的聊天界面。一个agent往往需要与多个工具连续互动、发出数十次甚至上百次API呼叫才能完成任务。token成本的每一次下降,都在直接扩大agent可运行的任务边界与商业规模,同时也引发更多的token用量。
第三是价值的持续上移。
最具体的案例是程序码生成。Cursor、ClaudeCode等AI coding agent以Claude与GPT-4o为核心引擎,正在重塑开发者的工作流程,而非只是IDE的外挂。Microsoft 365 Copilot、Anthropic Claude将AI能力直接嵌入Excel的公式建议与數據分析、PowerPoint的简报生成、Teams的實時摘要,使AI不再是独立查询工具,而成为日常工作的缺省助手。根据DIGITIMES Research的市场观察,AI产业价值占比将在2026至2028由硬件逐步转向軟件与服务,而应用层的渗透速度,将成为下一阶段竞争的真正起点。
成本的持续下压,让另一端的问题更加凸显:如何继续压低生产token的成本(TCO)?显现在2个产业核心。
芯片架构是第一个关键。各大CSP正加速投入自研ASIC,针对Transformer推论的计算模式深度最佳化,在特定工作负载下可实现数倍等级的能效提升,使算力成本的下降速度不再完全受制于通用GPU的产品节奏。电力则是更根本的制约因素。高密度AI數據中心的电费往往占营运成本的相当比例,当规模扩张到一定程度,电力取得能力往往比服務器采购能力更早触及上限。
近年新數據中心的选址优先顺序已悄悄改变——稳定电力供给逐渐取代土地成本成为首要考量。多家能源研究机构预测,全球數據中心电力需求在未来数年将出现倍数成长,AI扩张的真正瓶颈,已从芯片转向能源。
Token成本持续骤降,是AI进入第二阶段的信号。第一阶段的核心问题是「能不能做到」,竞争集中在最先进模型的能力竞赛;第二阶段的问题已经不同——谁能把TCO压得够低、把平臺做得够开放,让更多应用在上面生长,才是真正的决胜点。
接下来几年,与其看各家发布什么新模型,不如看推论成本降到哪里、开发者生态有多活跃,以及有多少垂直应用选择在平臺上发展;这些變量的交会处,才是下一波市场重心真正落脚的位置。对臺湾而言,半导体与服務器供应链能否持续协助全球客户优化整体TCO,将决定我们在这一波Token通缩浪潮中的角色与分量。