推论经济(Inference Economics)
Token价格跌了99%,这件事过去两年已成为AI产业大趋势。但有一个数字却大幅上升:「推论(inference)」算力需求。所谓推论,是模型训练完成后每次被呼叫服务客户产出回应的运算。超大规模云端业者与科技公司AI基础建设资本支出已达数千亿美元等级,其中推论占企业AI预算的比重已达85%,仍在攀升。Stanford AI Index 2025记录,达到GPT-3.5等级效能的成本2年内下降280倍(透过各种TCO系统优化策略),但全球GPU出货量与數據中心功率密度要求却同步上升。2022~2023年,AI基础建设的资本配置几乎全集中在训练,整个产业的讨论聚焦于训练算力的持续扩张。但2025年之后,这个比例已大幅翻转—在许多云端平臺的实际负载中,推论已超过训练;推论芯片市场的年销售额,预计未来5至8年成长4至6倍。推论算力的成长需求,由3个力量相乘决定,不是累加:(1)token能力持续提升、价格快速下降,兴起大量、多样的知识领域新颖应用情境;(2)推理(Reasoning)模型让每次查询的算力消耗乘以10至50倍;以及(3)第三个力量,也是最常被忽略的一个。第三个力量是agent的呼叫结构。关键不在agent能做什么,而在怎么做。单一agent完成一项任务(例如AI coding),背后并非一次LLM呼叫,而是一整个循环:规划、工具呼叫、观察结果、反思、修正,再执行,通常产生10至20次LLM呼叫;多agent系统并行运作,呼叫量再乘一个数量级。除了前文提过的AI coding,Salesforce Agentforce在2025年第4季的年度经常性营收已达8亿美元、年增169%;企业端agent部署不是未来式,是现在式,而且每个部署都在以乘数方式放大推论需求。3个力量合在一起,构成一个对市场规模的估算架构:情境数量×每个情境的推理深度×每个agent任务的呼叫次数。三者相乘,不是相加。需求乘数的另一面,是推论硬件本身的结构性改变。Google DeepMind研究人员Xiaoyu Ma与Turing Award得主David Patterson于2026年1月在IEEE发表论文"Challenges and Research Directions for Large Language Model Inference Hardware"指出,目前没有一款现有主流GPU架构主要为推论最佳化,业界仍在用训练架构执行推论工作。推论的Decode阶段(逐一吐出输出token的过程)是memory-bound,不是compute-bound。然而过去十年,硬件发展的重心一直放在运算,而非存儲器:GPU的FLOPS成长80倍,存儲器帶寬只成长17倍,这个落差还在扩大;HBM系统成本持续上升。论文因此提出4个研究方向——高帶寬Flash存儲器、近存儲器运算、3D存儲器逻辑堆叠、低延迟互连——尚未有厂商完整实现。推论需求的放大,加上硬件规格尚未收敛,正在重塑芯片采购的逻辑。OpenAI 2024年在37亿美元营收下亏损近50亿美元,推论成本正是这个结构性落差的主要因素之一;大型CSP业者们的实际回应不是等GPU厂商更新架构,而是自行设计推论专用ASIC(TPU或NPU);推论负载占比愈高,自建ASIC的TCO优势就愈明显。训练丛集的采购逻辑是「跟上GPU最新時代」;推论丛集的采购逻辑正在转变为「针对自己的模型特性与流量结构定制化」。这是两套不同的供应链需求,会在不同位置开启不同的机会。Patterson论文勾勒的研究方向,直接对应到推论丛集TCO优化的4个维度:运算端以推论专用ASIC取代GPU;通讯端以低延迟互连取代训练导向的高帶寬拓朴;储存端从HBM走向高帶寬Flash与DRAM的混合存儲器阶层;能源端把每个token的功耗列为系统设计的第一优先。4个维度都还在定义,意味著供应链格局尚未固化。「推论经济」的崛起,为GPU服務器供应链日益固化、毛利空间收窄的臺湾业者,开启新的机会。推论ASIC的设计与制造、先进封装、存儲器异质整合,恰好落在臺湾IC设计生态系与晶圆代工、先进封装能力的交叉点上。这四个维度的硬件规格,目前仍在被定义当中,也是探寻新机会的好时机。
AI改写的不只是效率,也是毛利结构
臺湾信息电子业对毛利压力并不陌生。品牌客户每年的成本下压、产品周期缩短、规格要求提升,是这个产业几十年来的基本节奏。过去应对的方式是制程优化、规模经济、供应链整合。AI的出现不是这条路的延伸,而是改变竞争的计算方式。哈佛商学院教授Oberholzer-Gee的Value Stick框架把竞争优势拆成一个简单的公式:Value=WTP–Cost。WTP是顾客愿付的价格上限,Cost是企业的成本下限。这个差值愈大,企业可以创造与捕获的价值愈多。竞争力的本质,是持续拉大这个区间。臺湾电子业其实对这个逻辑并不陌生,只是过去很少使用这个框架思考。PC ODM时代,臺湾主要ODM业者用规模与供应链整合建立成本曲线(随产量提升而持续下降的单位成本)优势,后进者很难复制。晶圆代工龙头的逻辑更直接:良率每提升一个百分点,每颗芯片的成本就跟著下来,客户愿意支付的溢价也跟著上去,Value Stick从两端同时扩大。延伸报导专家讲堂:企业AI导入的7个层次面板业则是反面案例:规模竞争把整个产业的成本压到极限,但WTP没有跟上(市场竞争使售价持续下压,与成本同步探底),多数业者的毛利结构至今仍未完全恢复。这三个案例说明的是同一件事:成本曲线的优势一旦建立,追赶的代价是非线性的。AI带来的结构性影响,从成本与WTP两端同时展开——而成本这端,是最先被感受到的。成本这端是最直接的。IC设计业已经感受到AI工具带来的结构性变化。芯片验证是开发流程中最耗时、最昂贵的环节,过去资深工程师需要花费大量时间撰写测试程序、调整UVM test bench、反复确认覆盖率。EDA领先供应商推出的AI辅助设计优化工具,让布局最佳化与测试程序生成的部分工作可以由AI完成。根据个别设计专案的回报,PPA(功耗、效能、面积)提升达双位数百分比,设计与验证的反复修改时间显著缩短。值得注意的是,部分臺湾主要IC设计业者已不只是采用外部EDA工具,而是走向自行开发AI模型。出发点之一是设计數據的安全敏感性:核心IP不易外传至云端服务;另一方面也是对特定设计流程有更精准的优化需求。以芯片布局为例,已有业者透过强化学习(reinforcement earning)训练自有模型,在SoC布局预测上实现从数周压缩至数小时的设计周期,并公开发表于国际设计自动化顶尖会议。这个方向代表的是:AI能力的建立,开始从「购买工具」进化为「训练自有模型与内化能力」,两者的差距,未来将直接反映在研发效率与成本曲在線。EMS端同样在移动。臺湾主要EMS厂与全球GPU运算资源供应商合作建置AI工厂,已是目前最具体的公开方向:AI视觉检测取代人工目视、生产排程AI优化压缩换线时间、设备预测性维护降低非预期停机。逻辑一致:把过去依赖人力判断的环节,逐步转为AI辅助决策,让单位产出成本随规模扩张持续下降。国际管理顾问机构与商学院的研究显示,系统性导入AI工具的企业,知识工作的完成速度提升约25%、品质提升约40%,对应到制造端是良率改善、重工减少、客诉降低。WTP这端的移动比较不明显,但同样在发生。当IC设计公司能够更快完成验证、更快回应客户规格变更,品牌客户在选择设计伙伴时的考量开始改变:交期可靠性与应变速度,正在成为与价格同等重要的评估维度。对EMS厂而言,能够提供AI辅助的生产可视性与品质预测,已是部分品牌客户评估长期合作伙伴时的加分项。这不直接等于更高的售价,但等于更稳固的订单与更长的合作周期,这本身就是Value Stick上端的移动。根据国际顾问机构2024年全球调查,AI导入程度最高的4分之1企业,创造的价值是最低4分之的3至4倍。这个差距在信息电子业的具体呈现是:能够用AI压缩设计周期、提升良率、降低库存的公司,Value=WTP–Cost的数值在扩大;没有跟上的公司,面对同样的品牌客户成本下压,空间只会愈来愈窄。PC ODM时代的成本曲线建立花了10年,晶圆代工的良率优势积累更长时间。AI这条曲线的建立速度可能更快,因为工具的取得门槛低,扩散速度也快。但这反过来意味著,领先者的优势也可能更快被追上;除非持续深化、把AI能力嵌进组织的核心流程,而不只是导入工具。真正的问题不是有没有导入AI,而是AI驱动的效率累积是否已经反映在毛利结构上。至于AI带来的效率,最终能否转化为毛利结构的改变,答案会在接下来几年的财报数字里逐渐呈现。
企业AI导入的7个层次
过去两年,AI科技公司市值飙升,传统本益比估值已不适用——市场溢价反映的是产业结构重组的预期,而非当期获利。对尚未投入AI的企业而言,问题不在旁观与否,而是从何切入,掌握这波AI红利。有效使用AI工具的企业,完成同样业务量所需的人力成本与工时正在缩减。这个落差当下还不明显,但历次技术变革的走向都说明同一件事:效率差距迟早会转化为成本结构的差距,而成本结构一旦落后,追赶所需的时间往往远超过补齐工具本身。企业使用AI的方式,其实有清楚的技术层次可循,从几乎零门槛的日常工具,到需要深度IT能力的定制化部署。理解这几个层次,才能找到合理的切入点。第一层:对话式AI的日常渗透。对多数企业而言,第一个接触点是ChatGPT、Claude等对话式AI,用于文件草稿、市场分析摘要、会议纪录整理、法规条文初步解读。这个入口看起来琐碎,影响却不容低估。麦肯锡(McKinsey & Company)的研究显示,使用生成式AI的知识工作者平均每天节省1.75小时;GitHub Copilot的实测数据则显示工程师完成指定任务的速度提升约55%。这一层几乎没有理由不做,唯一需要决定的是是否系统性地推动,而不是让每个员工各自摸索。第二层:嵌入工作流程的agent工具。这一层的关键不是AI「帮你建议」,而是给定目标,agent自主规划步骤、执行完成,员工负责最后审核。Cursor、Claude Code等coding agent是目前最成熟的例子,工程师描述需求,agent自己写程序、测试、除错,开发周期大幅压缩。但应用范畴已远不止于此:给定主题,agent自主产出完整投影片;描述财务逻辑,agent建公式、设架构、生成图表;会议录音进来,整理决议、分配待办、起草通知;业务开发上,agent研究目标对象、撰写个人化开发信、追踪回复进度,销售团队专注在真正需要人判断议题。当工作流程中有重复性高、步骤明确的工作,这一层值得认真评估。第三层:特定领域的第三方工具:HR的智能排班、聘雇、与绩效分析、客服的自动回复与情绪侦测、行销科技的广告投放优化,以及电商平臺如Amazon Seller Central的商品描述生成与动态定价建议。优点是导入快、ROI计算相对清晰,不需要IT深度介入;取舍是定制化空间有限,數據往往流向第三方。当特定职能有明确痛点、且不想花IT资源自建时,这是效益最快显现的选择。第四层:呼叫LLM API自建企业工具。当第三方工具无法满足需求,直接呼叫OpenAI、Anthropic、Google等的API(使用token),由内部IT开发定制化工具是下一步。例如串接内部ERP數據的智能查询界面、自动摘要供应商合约重点条款的审阅流程、根据历史订单提供采购预测的决策辅助系统。先决条件是具备一定规模的IT开发能力。數據流向云端是主要的风险考量;当这个风险可接受、且IT人力具备,这一层提供第三方工具难以达到的定制深度。第五层:自建模型环境,數據不出企业。当數據敏感度更高,或用量规模使云端API的成本不再划算,企业可以建立自己的模型环境。最常见的做法是部署开源模型,搭配RAG架构:模型的内部知识负责推理与回答,公司的文件、手册、历史纪录作为外部知识来源,在每次查询时动态检索补充,让回答有所依据。这个架构不一定需要自建实体服務器,企业可以在自己管控的云端环境中部署开源模型,运算资源租自云端、數據留在自己的空间,兼顾弹性与數據主权。对有特定领域需求的大型企业,可以进一步微调(fine-tune)开源模型,让模型精准理解内部术语与文件格式,但门槛不低,需要足够数量且标注完整的领域數據与相应的训练资源,成本可观,中小型企业直接使用RAG通常已足够。至于从头预训练(pre-training),几乎不在企业的选项之列——所需运算资源以亿美元计,是大型AI实验室才有条件投入的工作。同样在这个层次,边缘AI(Edge AI)提供另一条路线:推论直接在终端设备上执行,數據从不离开设备、延迟极低、断网也能运作。更值得关注的是企业多年累积的内部數據——制程参数、研发纪录、设备维护历史、客户交易记录——过去是沉睡的资产,现在可以透过本地部署的AI模型加以活化。不只是查询与检索,而是跨數據集推理:找出制程与良率之间人工难以发现的关联、连结多年研发纪录中被遗忘的发现、系统化留存资深员工的隐性知识。这类數據几乎不可能送上云端,本地部署的投资也因此有更明确的商业理由。第六层:整合多模型的AI决策平臺。在更高的复杂度层次,是像Palantir AIP这样的平臺:在企业既有的數據基础设施之上,同时整合多个LLM来源,让人员在不直接接触原始數據的情况下进行AI辅助决策。美国军方是其最具代表性的客户,商业端也快速拓展至制造、医疗、金融等场景。导入门槛高、周期长,但提供其他方案难以达到的整合深度与决策可稽核性。这一层适合數據环境复杂、决策责任明确、且已在第四、第五层累积相当经验的企业。成熟的企业AI策略往往是混合架构:日常文书使用云端LLM,敏感的内部知识查询走RAG加开源模型,特定职能采购第三方工具,产线實時判断、内部know-how活化走边缘AI。根据各任务的數據敏感度、使用频率与精度要求做出合理配置,不必一刀切。这7个层次表面上是技术路线的选择,背后是竞争力的重组。采用AI更彻底的企业,人均产出显著提升、决策周期缩短。对供应链而言,硬件架构的影响也同步在发生:企业端的AI推论需求快速成形,服務器、存儲器与边缘运算设备的采购逻辑正在重写。而组织层面,随著AI承接愈来愈多的文书、协调与初步判断工作,人员的职能重心从「执行」移向「决策」与「问责」——这对人才结构的重新界定,是企业领导者需要提早布局的课题。
AI的不可逆进化
对过去的执著,常使人误以为昨日是一个可以重启的程序(rebootable program),仿佛只要回到某个储存点(save point)便能修正错误。然而,时间的核心机制是改写(rewrite),而非还原(restore)。每一次前进,都伴随著内在结构的调整。路易斯·卡罗(Lewis Carroll)在《爱丽丝梦游仙境》(Alice's Adventures in Wonderland)中,透过爱丽丝(Alice)之口说出那句著名的话:「回到昨天没有用,因为那时的我已是不同的人。她之所以无法回归原貌,正因其认知框架(cognitive framework)已被经验永久改变。」将此观点延伸至AI发展,可以看到相似的逻辑。一个完成训练的AI模型,其昨日由固定的训练數據集(training dataset)与初始模型权重(initial model weights)所构成。在部署后,模型本身通常维持静态;唯有经过微调(fine-tuning)或持续学习(continual learning),它才会进入新的阶段。每一次有目的的再训练与迭代,都会不可逆地改变其内部参数结构。人们往往期望AI的记忆,也就是其经训练形成的知识,是稳定且可预测的。然而,如同人类学习,AI的成长并非线性过程。新數據可能引入异常案例(anomalies),也可能挑战既有模式。一个大型语言模型(LLM)在不同版本间所呈现的细微输出差异,正反映其在再训练后参数(parameters)配置的调整结果。模型并非单纯重复过去的计算,而是在旧有基础上,经由新的训练周期,形成带有修正理解(revised understanding)的新状态。这种不可逆的进化同时蕴含深刻风险。当AI吸收错误或带有偏差的數據,它可能朝错误方向演进,且难以回到一个所谓正确的昨日。正因如此,數據来源的选择、治理与监管显得格外重要。持续学习的路径如同单行道,一旦數據受到污染,后续修正所需付出的代价将极为高昂。因此,对AI而言,真正的适应性并不在于固守一个被视为完美的过去训练集,而在于能否在面对模糊性与错误时,透过审慎的再训练与优化,生成更准确且更具弹性的回应。它的进化不在于静态保存所有信息,而在于能于每一次训练迭代中调整内在连结与权重,持续向前。它的昨日完成初始学习,它的今日则携带更新后的参数结构,在新的任务中延伸出新的知识。
当一支铅笔的颤抖,遇见亿万参数的沉思
左图是我的手,右图是AI的灵魂,或者说,是它从人类无数个灵魂中蒸馏出来的回应。这件事让我著迷许久。起初,我只是随手在纸上勾勒一个女性的姿态:头部后仰,双臂上举,身体的弧度像一个无声的感叹号。线条粗糙,比例也不完美,但那个姿势里有某种说不清楚的渴望,像是一个人在黑暗中向天空伸手的瞬间。我把它拍下来,输入一段精细的提示词(Prompt),然后交给AI。几秒钟后,右图出现了。我盯著屏幕看了很长时间。那还是我的姿势,我的构图,但那个向天空伸手的女人,已经不再是草稿。她的头发像墨水在水中散开,一丝一缕都有自己的重量。她的皮肤在炭笔(Graphite)的阴影里呼吸,光从不可见的地方打来,让锁骨下方有了深度。最让我震惊的是那些紫色的牵牛花,它们并非强行安插,而是像真的从她的身体里生长出来,藤蔓沿著腰线缠绕,叶片覆盖本来空白的下半身,像是自然界对一个姿势的诠释。要理解这幅图从何而来,得稍微走进AI的思维逻辑。AI首先透过视觉编码读取草稿中的线条结构,同时解析提示词的语义,将两者在潜在空间(Latent Space)中进行多模态融合。接著,它识别出头部后仰、双臂上举的骨架,透过ControlNet确保生成结果严守原始轮廓,再从训练數據中召唤素描技法与新艺术运动(Art Nouveau)的视觉记忆,将它们揉进同一个画面。最核心的演变发生在扩散过程(Diffusion Process)里:图像从一片纯粹的随机噪声出发,在逐步去噪中让细节从虚无中浮现,像是某种沉睡的记忆在黑暗中缓缓苏醒。那些牵牛花之所以长在那里,是因为交叉注意机制(Cross-Attention)让花卉的语义在图像特定区域精准激活,而ControlNet那双无形的手,始终拉住AI奔涌的想像力,让它不越出我草稿划定的物理边界。整个过程,像一位艺术家在高维矢量空间中进行的联想,素描的肌肉记忆与牵牛花的印象在同一瞬间翻涌交叠。那幅右图太美了,美得让我有一瞬间觉得左图显得有些多余。但我很快意识到,如果没有左图,右图根本无从谈起。AI的所有聪明,在那一刻都在服务我那个颤抖的轮廓。那个姿势是我的,那个渴望是我的,AI只是给了它一场盛大的赴约。这就是人机协作最迷人的地方:不是替代,而是放大。我带来意图,AI带来技法;我带来情感的骨架,AI带来血肉和皮肤。工具在改变,从兽骨到毛笔,从油彩到潜在空间中的运算,但那个想要表达某件事的冲动,仍然是整件事的起点,也是任何参数都蒸馏不出来的精华。
AI Token耗量持续攀升—推理模型的崛起与产业重塑
2022年下半,AI技术出现罕见的结构性转折。Frontier Model 首度同时展现出真正的泛化(Generalization)与多工能力(Multi-tasking)。泛化意味著模型学到可扩展的语义与分析能力,能在新的指令形式与问题情境下维持稳定表现;多工则意味著同一套模型可以服务翻译、摘要、图片生成、问答等截然不同的场景应用,无需为每个任务另行训练专用模型。这个突破,使AI从针对单一任务优化的垂直工具,转变为横向的通用、高成长智能服务。同时也对供应链产生實時冲击:自2022年下半起,數據中心的算力需求全面上修,GPU短缺从研究机构蔓延至企业端,并推动整条AI供应链——从芯片、服務器到应用层——重新定位。2024年的下一步:推理(Reasoning)登场。泛化与多工解决「能做什么」的问题,却没有解决「能想多深」的限制。对话式问答提供足够解方,但遇到需要多步骤逻辑推导的任务如解数学题、复杂程序除错、分析法律条文、科学探索、逻辑论证等,模型的能力局限就被暴露出来。这个落差,在2024年下半开始逐步被补上。OpenAI-o1的发布标志著推理时代的开始。推理模型呈现出更接近「System-2」的思考方式——借用心理学家康纳曼(Daniel Kahneman, 1934~2024)的框架:System-1是快速直觉式的反应,System-2是缓慢刻意的深层推理。在实际运作中,推理模型不会直接输出答案,而是先在内部展开较长的(推理)思维链(Chain-of-Thought, CoT),逐步分解问题、排查矛盾、整合逻辑,再收敛出最终回应。数学推导、程序除错、法律条文解析、医疗决策辅助——这些原本只有专业人士才能应付的复杂任务,开始出现跨越式的能力提升。推理能力的形塑,来自几个相互强化的技术突破。最基础的是思维链CoT训练。模型在训练时被要求把推理过程一并展开,而非直接给最终答案,强迫模型在解题时学会分解问题、逐步推进。这种推理的引导,显著提升复杂逻辑任务的表现。其次是强化学习(Reinforcement Learning)的深度整合。模型透过持续与真实任务互动并接收回馈,逐步找出「真正有用的答案」而非「听起来合理的答案」——这成为推理品质得以持续演进的核心机制。值得注意的是,强化学习的奖励机制,也间接强化模型「用更多token想清楚」的行为倾向——更长的思维链往往对应更好的答案,模型在训练中学会以算力(更多token)换品质。第三条路是推论时扩展(Test-Time Scaling),被视为继预训练(Pre-training)、后训练(Post-training)之后的第三条scaling law:不必重新训练模型,只需在推论(inference)阶段投入更多运算资源,让模型「想更久」,就能换取更好的答案品质。正因如此,随著用户数量增加,据报导,目前实际对用户服务时的推论运算需求,已经高于模型训练阶段的算力消耗。推理能力的代价,直接反映在token用量上。传统问答模式下,一次查询平均消耗数百个token;推理模型因为需要展开较长的内部推理步骤,每次查询的使用量往往是传统模式的10到50倍。这种倍数效应已在市场流量结构中浮现:目前推理模型的token使用量,已占整体LLM流量的6成以上,预计会持续增长。这不只是技术规格的改变,而是整个算力需求预测逻辑必须重新计算的开始。当推理能力成熟,一个更大的结构性转变随之而来:Agent 的崛起。Agent (代理人)不是升级版的聊天机器人,而是具备目标驱动、自主规划与多步骤执行能力的AI系统。没有深层推理,Agent只是预先编排好的流程;有了推理,它才能在复杂流程中深度思考,做出判断、处理例外、在不确定性中高价值任务。程序设计是第一个Agent的突破点。GitHub Copilot、Anthropic Claude与Cursor的AI coding工具,目前市占各约24%至25%,生产力提升幅度估计达1.5至3倍。从成长速度可以感受到市场反应的强度:Anthropic的年化营收(ARR)在2025年年增幅逾 800%,Cursor从1亿美元成长至10亿美元、年增达900%。法律、医疗、财务等垂直领域的跟进速度也正在加快:据报导,Harvey的法律AI ARR已达1.5亿美元。OpenEvidence在临床医疗场景的ARR同样超过 1.5 亿美元。这些垂直应用的共同特征,在于它们都依赖多步骤推理——不只是查询數據库,而是在法条、案例与临床指引之间做出复合判断,处理真实世界中的模糊与矛盾。推理的架构决定token耗量只会持续增加。每个新应用场景导入、每个Agent工作流程启动,都意味著更多的思考步骤与更高的算力消耗——这是推理模型的设计本质,不会因为效率优化而消失,只会因为应用范畴扩大而放大。对半导体、服務器、高帶寬存儲器供应链而言,这是结构性的长期需求信號。当推理能力从數字工作流程走向实体世界,影响规模可能再扩大一个量级。工厂排程、医疗诊断辅助、教育个人化、法律文件审查——这些场域一旦嵌入自主推理能力,改变的不只是工具,而是企业工作流程与人员分工的重组。这种重组很可能使对ICT基础建设的需求,从一次性的升级,转为更长期的投入。这波AI资本投入是否会在建设高峰后趋于平缓?推理模型提供一种不同的结构性逻辑。其特性在于,应用规模的扩张会直接转化为持续性的推理运算需求,而不仅是一次性的部署成本。当前推论已成为AI算力负载的主要来源,而推理型推论的运算占比不断攀升。再加上方兴未艾的Agent架构兴起,以及各种以token消耗为核心的智能服务快速普及,算力需求将不再仅仅随模型训练周期波动,而是与日常使用频率高度绑定。当使用深度与应用广度持续扩张,供应链从芯片、存儲器到电力基础设施所面对的需求动能,可能更接近结构性成长,而非单一景气循环所驱动。延伸报导专家讲堂:AI愈强,Token却愈便宜
AI愈强,Token却愈便宜
2023年初,OpenAIGPT-4的API定价约为每百万token30美元;如今,主流前瞻模型已全面重订价格:GPT-4o mini降至0.15美元、Anthropic Claude 3.5 Haiku低至0.25美元、Google Gemini 2.0 Flash更压至0.10美元—降幅从90%到99%不等,而且仍在持续下修。这不是削价竞争,而是深层的技术与市场力量共同作用的结果,并正在引发整个AI生态系的结构性改变。3个相互强化的力量在同时作用,支撑token价格持续下降。首先是模型效率的快速提升。蒸馏(distillation)将大模型的能力压缩进更小的架构,量化(quantization)降低每次运算的位元需求,混合专家架构(MoE)让推论时只启动最相关的小網絡。同样的任务,所需算力持续缩减,而且这个技术优化态势,还没止息。其次,是系统层级的优化。产业界已清楚Transformer推论的运算瓶颈——矩阵乘法占了绝大多数计算量,KVCache的存儲器存取效率与帶寬配置直接影响延迟,而批次处理策略则决定整体吞吐量。从编译器最佳化、推论排程到硬件与系统层的整体优化,让同一套硬件能服务更多prompt、产出更多token。以Google为例,透过TPU与模型、系统的协同优化,在特定工作负载下推论能效出现数倍到数十倍等级的提升,显示推论成本仍有可观的下降空间。接著是竞争格局的根本改变。DeepSeek-R1、Meta LLaMA3、阿里巴巴Qwen2.5等开源模型持续追近闭源frontier模型的效能(约落后7个月),打破少数大厂的定价垄断。开源模型的全球部署量已占整体AI使用的约3成,也成了市场定价基准的压力源。Token成本的持续下降,正在同步触发3个层面的连锁反应。第一,是AI推论应用的急遽扩张。当每百万token的成本从过去的高价模型,下降到数十分美分至数美元等级,大量原本「因成本不具经济效益」的场景开始跨越可行门槛。个人化邮件撰写、實時翻译、文件摘要、程序码生成、多语客服回复、会议纪录整理、合约审阅辅助、报表初稿产生等任务,不再只是试验性功能,而逐步成为工作流程中的常态模塊。关键不在于成本归零,而在于边际成本已低到足以长时间、完整部署推论服务,让AI从「偶尔使用的工具」转变为持续运行的生产力工具。第二,是Agent对工作流程的全面渗透。低成本token是Agent得以规模化的前提。这一点已在市场成长速度上反映出来:Anthropic的营收规模近年快速进入数十亿美元级距,年增幅达数倍;Cursor等AI coding工具在短时间内从千万美元级别,跃升至上亿美元年化营收,成为成长最快的一批AI SaaS产品。这些成长快速的新创几乎无一例外地以agent或workflow automation为核心定位——无论是Anthropic、Harvey、Glean——产品路线指向的是自主代理与垂直工作流程整合,而非单纯的聊天界面。一个agent往往需要与多个工具连续互动、发出数十次甚至上百次API呼叫才能完成任务。token成本的每一次下降,都在直接扩大agent可运行的任务边界与商业规模,同时也引发更多的token用量。第三是价值的持续上移。最具体的案例是程序码生成。Cursor、ClaudeCode等AI coding agent以Claude与GPT-4o为核心引擎,正在重塑开发者的工作流程,而非只是IDE的外挂。Microsoft 365 Copilot、Anthropic Claude将AI能力直接嵌入Excel的公式建议与數據分析、PowerPoint的简报生成、Teams的實時摘要,使AI不再是独立查询工具,而成为日常工作的缺省助手。根据DIGITIMES Research的市场观察,AI产业价值占比将在2026至2028由硬件逐步转向軟件与服务,而应用层的渗透速度,将成为下一阶段竞争的真正起点。成本的持续下压,让另一端的问题更加凸显:如何继续压低生产token的成本(TCO)?显现在2个产业核心。芯片架构是第一个关键。各大CSP正加速投入自研ASIC,针对Transformer推论的计算模式深度最佳化,在特定工作负载下可实现数倍等级的能效提升,使算力成本的下降速度不再完全受制于通用GPU的产品节奏。电力则是更根本的制约因素。高密度AI數據中心的电费往往占营运成本的相当比例,当规模扩张到一定程度,电力取得能力往往比服務器采购能力更早触及上限。近年新數據中心的选址优先顺序已悄悄改变——稳定电力供给逐渐取代土地成本成为首要考量。多家能源研究机构预测,全球數據中心电力需求在未来数年将出现倍数成长,AI扩张的真正瓶颈,已从芯片转向能源。Token成本持续骤降,是AI进入第二阶段的信号。第一阶段的核心问题是「能不能做到」,竞争集中在最先进模型的能力竞赛;第二阶段的问题已经不同——谁能把TCO压得够低、把平臺做得够开放,让更多应用在上面生长,才是真正的决胜点。接下来几年,与其看各家发布什么新模型,不如看推论成本降到哪里、开发者生态有多活跃,以及有多少垂直应用选择在平臺上发展;这些變量的交会处,才是下一波市场重心真正落脚的位置。对臺湾而言,半导体与服務器供应链能否持续协助全球客户优化整体TCO,将决定我们在这一波Token通缩浪潮中的角色与分量。
AI的曼德拉效应
许多人第一次听说曼德拉(Nelson Mandela,1918~2013)当选总统时,都会错愕地说:「我清楚记得他在狱中去世的新闻画面。」这种大规模的错误记忆,被称为「曼德拉效应」(Mandela Effect)。它说明人类记忆不是录影带,而是每次回想时都在重建的神经活动。当微小误差透过媒体传播并被群体强化,最终可能凝固为坚信不疑的「事实」。生成式AI的出现,让这个现象进入危险的新阶段。过去的错误记忆源于人脑的模糊回想,如今却可能来自精心制作的數字幻象。AI能轻易生成高度拟真的内容,例如「C-3PO全银色剧照」或「皮卡丘黑色尾巴百科条目」。这些虚构细节真实得足以欺骗未经查证的观者,一旦在社群媒体病毒式扩散,说服力远超过去的谣言。更可怕的是,AI生成的不只是单一图片或文字,而是包含照片、影片与文章的完整「证据链」,让虚假记忆看似天衣无缝。同时,AI内容正以惊人速度污染信息生态。当人们试图验证记忆时,查找结果往往充斥大量口径一致的错误答案,形成信息回音室。社群演算法又偏好新奇与争议性内容,AI制造的谣言正符合这些条件,于是错误信息在推送与点击间不断循环,甚至被推升至主流讨论。更令人忧心的是,AI不仅能放大既有错误,还能凭空创造从未存在的记忆。想像有人利用AI虚构一个九〇年代的卡通角色,生成动画片段、广告影像与周边商品照片,再编造讨论贴文。这些充满怀旧元素的内容迅速走红,10年后,当年的孩童已成年,脑中仍保留模糊印象。当有人发问「你还记得这个卡通吗?」便会有大批网友响应,甚至补充剧情细节。一个根本不存在的角色,竟成为集体的童年回忆。此时,AI已不是错误的放大器,而是记忆的原始编造者,绕过既有事实,直接向集体意识注入从未发生过的过去。这绝非单纯趣闻,而是深具社会风险的征萬億。当伪造记忆结合拟真图像、详尽文本和庞大社群互动,真实与虚构的边界将愈加模糊。它可能动摇人们对历史的理解,使司法证据效力大打折扣,甚至撼动政治共识。如果某个重大事件被AI大规模改写,数百万人因而误解,后果难以想像。更极端的情境是,当AI生成的虚假内容数量超过真实信息时,查找引擎甚至可能将错误答案置于前列。此时,真相反而成了需要额外努力证明的「少数说法」,我们将进入一个「真相倒置」的时代。因此,社会必须建立數字免疫系统。技术上需要更精准的检测工具,識別内容是否为AI生成。制度上,平臺应透明标注AI内容,并对恶意散布者设立规范;教育上,更需强化數字素养,培养理解演算法运作的能力,养成交叉验证与批判思考的习惯。在个人层面,每位使用者都应保持警觉。我们必须追溯信息来源,不轻信单一说法,也不要因「众人皆信」就放下怀疑。面对任何看似「众所周知」的信息,都应该问3个问题:来源是什么?是否有可靠第三方验证?是否符合基本逻辑与常识?AI的曼德拉效应提醒我们,过去不再是坚固不动的参考点,而是随著數字技术持续被改写的场域。在这个由演算法与幻象交织的记忆迷宫里,真相的价值从未如此珍贵。当记忆本身都能被制造,守护真实便成为每个人的责任,而我们的选择,将决定未来時代如何理解过去、认识现在。
物联网中药局
传统中医(Traditional Chinese Medicine;TCM)源自古代中国的医学体系,重视个体差异,考虑到个人体质和季节等因素。对于相同的疾病,中医可能会根据不同个体的情况,开出不同的治疗方法和药物。KingNet国家網絡医药比较中医和西医,指出:「中医治本,西医治标。」中草药一直是华人治疗、预防疾病和维持健康的重要手段。比较中医伤科和西医康复医学的治疗方法,可以理解为「中医善于治疗,西医善于诊断」。近年来,随著新冠肺炎病毒的全球蔓延,人们对中医疗愈和增强免疫功能的关注增加。根据中医理论,中草药被用于诊断、治疗、缓解或预防人类疾病。中草药的材料来自自然界,包括矿物质、植物和动物衍生的原材料,以及加工产品和草药汤剂。传统上,中医涉及草药的煎煮,使其中的成分溶解在水中,形成药液。然而,煎煮过程耗时,携带药液也不便。随著中医治疗的普及,传统的草药汤剂正逐渐被科学中药(Scientific Chinese Medicine;SCM)所取代。科学中药并不是直接由原草药研磨而成,而是通过收集草药材料、煎煮和烘焙制成的,大大提高中药消费的效率。近年来,科学中药在消费者中获得认可。病人获得医院或诊所的处方后,会去药房领取科学中药包(装有药粉的纸袋)。药剂师从各种科学中药瓶中测量出处方量的药粉,混合后包装并密封成多日剂量。然而,这一过程通常是手工的,繁琐且易出错。为了解决这个问题,黄信行教授和我提出SCMtalk,一种基于物联网(IoT)的科学中药局机制,能够提高科学中药包生成的效率和准确性。SCMtalk实现4种机械物联网设备:选粉设备(图1 (1)-(7))、混合清洗设备(图1 (8)-(10))、分配设备(图1 (12))和包装设备(图1 (13))。这些设备和SCMtalk服務器安装在一个约53厘米宽、40厘米长、120厘米高的柜子中。通过这些物联网设备,SCM粉末被包装成药包(图1 (11))。选粉设备包括一个内置活塞的圆柱形药罐(图1 (6)),使用前需要填充预混药粉。上述4种物联网设备由IoTtalk物联网平臺管理,该平臺安装在分配和混合柜中的SCMtalk服務器上。分配和包装柜中的现场触控面板(图1 (14))作为多功能控制界面,显示SCMtalk的当前运行状态。SCMtalk也支持远程控制,可以通过任何具有网页浏览器的移动设备进行访问(图1 (15))。浏览器包括一个视讯屏幕,允许药剂师通过镜头線上监控SCMtalk的操作(图1 (16))。分配和混合柜中间的加载口(图1 (12))是分配设备的入口,机器手臂(图1 (8))将药罐(图1 (6))放置在这里。下方是药包的出口(图1 (13)),在自动化过程完成后,可以从下方出口取出药包(图1 (11))。通过应用垂直包装技术,每个处方的药包数量可以达到100个。SCMtalk全自动系统运行,精确分配药粉。其每一个包装速度少于3秒,每个处方可达到超过100包,这在前处理和后续清洁上节省大量时间。这个SCM应用需要信息工程师、药剂师和机械专家的合作,使用物联网平臺来实现智能药房。
辩证法在AI机房
机房深处的嗡鸣中,理性正进行一场无人旁观的演出。AI服務器成列排开,数据流经管线,错误被标记、修正并转化为下一轮尝试。此处既无康德(Immanuel Kant)忧虑的形而上学僭越,也无黑格尔(Georg Wilhelm Friedrich Hegel)期待的绝对精神降临。但若细察训练曲线的起伏,仍可識別出古老的模式:否定之否定,在矛盾中前进,在破裂中重组。康德若见到当代AI系统,或许会感到些许安慰。我们为模型设下界限,正如他为理性划定合法范围。拒绝提示词(Prompt)与伦理对齐机制传递著相同信息:并非所有问题都该被回答,能力并非毫无节制地释放。当AI模型遭遇无法化解的冲突时,它被要求止步并承认限制,而非陷入二律背反(Antinomies)的无尽循环。这是一种知其边界的理性。黑格尔则会指出,这些界限本身即是暂时的。AI模型不断超越旧版本的历程,正是辩证运动的实践。每次微调都否定前一状态,每次架构革新都扬弃(Aufhebung)旧范式。GPT-3让位于GPT-4,并非否定其价值,而是在更高层次将其成果保存并超越。正反合(Thesis-Antithesis-Synthesis)在此演化为技术发展的当代形式,模型在错误中学习、在矛盾中成长。辩证法在此不再是观念运动,而是具体的劳动关系与资本累积。进步叙事掩盖这些代价,使矛盾转移至供应链末端,以不可见的形式延续。在工程实务中,黑格尔的辩证结构被彻底去魅,转化为可操作的技术形式。矛盾简化为损失函数(Loss Function),否定简化为反向传播(Backpropagation),对抗性训练(Adversarial Training)成为核心方法。生成对抗網絡(Generative Adversarial Networks)透过生成器与判别器的制衡,在竞逐中逼近纳许(John Nash Jr.)均衡。此处没有精神的自我实现,只有可计算的最佳化过程。黑格尔相信历史运动指向自由意识的完成,但人工智能显示,辩证结构可以在没有目的论的情况下运作。它无需终点与意义,只要在高维空间中收敛。这印证理性的习性:面对复杂性时,将走向矛盾与扬弃,无论是否有归宿在等待。这种认知令人不安。我们以为进入纯技术时代,摆脱形而上学包袱,但当模型在无数次失败后找到稳定状态,我们只是再次见证理性的老习惯:拒绝简化,必须经由否定寻路。只是这次我们不称之为精神的历险,而称之为机器学习。真正的问题在于,当辩证运动在无意识系统中自动发生,责任由谁承担?没有灵魂的理性依然塑造世界,产生偏见、失业与操控,而后果终由具体的人承受。康德的界限及黑格尔的运动如幽灵般徘徊于机房,提醒我们技术并非中性,理性的形式始终伴随成本。当你站在數據中心外听著冷却风扇的声音,不妨想像运转的不只是矽芯片,还有几百年前关于理性、自由与矛盾的老问题。只是这一次,它们不等待哲学家回答,而直接在现实中展开,由算法执行,其后果则由人类承受。
智能应用 影音