椽经阁 - 徐宏民专栏

徐宏民

台灣大學信息工程学系教授

台灣大學信息工程学系教授，曾任富士康集团与Stellantis合资车用科技公司技术长暨副总经理，推动ADAS及智能座舱系统产品进入全球车用市场。纽约哥伦比亚大学电机博士，专精于机器学习、电脑视觉、自驾车、机器人等领域。为讯连科技研发团队创始成员，慧景科技（thingnario）共同創始人，NVIDIA AI Lab計劃主持人；曾任IBM华生研究中心及美国微软研究院客座研究员。担任多家科技公司AI策略顾问，习惯从学术与产业双重视角检验技术发展的机会与挑战。<br>

推论经济（Inference Economics）

Token价格跌了99%，这件事过去两年已成为AI产业大趋势。但有一个数字却大幅上升：「推论（inference）」算力需求。所谓推论，是模型训练完成后每次被呼叫服务客户产出回应的运算。超大规模云端业者与科技公司AI基础建设资本支出已达数千亿美元等级，其中推论占企业AI预算的比重已达85%，仍在攀升。Stanford AI Index 2025记录，达到GPT-3.5等级效能的成本2年内下降280倍（透过各种TCO系统优化策略），但全球GPU出货量与數據中心功率密度要求却同步上升。2022~2023年，AI基础建设的资本配置几乎全集中在训练，整个产业的讨论聚焦于训练算力的持续扩张。但2025年之后，这个比例已大幅翻转—在许多云端平臺的实际负载中，推论已超过训练；推论芯片市场的年销售额，预计未来5至8年成长4至6倍。推论算力的成长需求，由3个力量相乘决定，不是累加：（1）token能力持续提升、价格快速下降，兴起大量、多样的知识领域新颖应用情境；（2）推理（Reasoning）模型让每次查询的算力消耗乘以10至50倍；以及（3）第三个力量，也是最常被忽略的一个。第三个力量是agent的呼叫结构。关键不在agent能做什么，而在怎么做。单一agent完成一项任务（例如AI coding），背后并非一次LLM呼叫，而是一整个循环：规划、工具呼叫、观察结果、反思、修正，再执行，通常产生10至20次LLM呼叫；多agent系统并行运作，呼叫量再乘一个数量级。除了前文提过的AI coding，Salesforce Agentforce在2025年第４季的年度经常性营收已达8亿美元、年增169%；企业端agent部署不是未来式，是现在式，而且每个部署都在以乘数方式放大推论需求。3个力量合在一起，构成一个对市场规模的估算架构：情境数量×每个情境的推理深度×每个agent任务的呼叫次数。三者相乘，不是相加。需求乘数的另一面，是推论硬件本身的结构性改变。Google DeepMind研究人员Xiaoyu Ma与Turing Award得主David Patterson于2026年1月在IEEE发表论文"Challenges and Research Directions for Large Language Model Inference Hardware"指出，目前没有一款现有主流GPU架构主要为推论最佳化，业界仍在用训练架构执行推论工作。推论的Decode阶段（逐一吐出输出token的过程）是memory-bound，不是compute-bound。然而过去十年，硬件发展的重心一直放在运算，而非存儲器：GPU的FLOPS成长80倍，存儲器帶寬只成长17倍，这个落差还在扩大；HBM系统成本持续上升。论文因此提出4个研究方向——高帶寬Flash存儲器、近存儲器运算、3D存儲器逻辑堆叠、低延迟互连——尚未有厂商完整实现。推论需求的放大，加上硬件规格尚未收敛，正在重塑芯片采购的逻辑。OpenAI 2024年在37亿美元营收下亏损近50亿美元，推论成本正是这个结构性落差的主要因素之一；大型CSP业者们的实际回应不是等GPU厂商更新架构，而是自行设计推论专用ASIC（TPU或NPU）；推论负载占比愈高，自建ASIC的TCO优势就愈明显。训练丛集的采购逻辑是「跟上GPU最新時代」；推论丛集的采购逻辑正在转变为「针对自己的模型特性与流量结构定制化」。这是两套不同的供应链需求，会在不同位置开启不同的机会。Patterson论文勾勒的研究方向，直接对应到推论丛集TCO优化的4个维度：运算端以推论专用ASIC取代GPU；通讯端以低延迟互连取代训练导向的高帶寬拓朴；储存端从HBM走向高帶寬Flash与DRAM的混合存儲器阶层；能源端把每个token的功耗列为系统设计的第一优先。4个维度都还在定义，意味著供应链格局尚未固化。「推论经济」的崛起，为GPU服務器供应链日益固化、毛利空间收窄的臺湾业者，开启新的机会。推论ASIC的设计与制造、先进封装、存儲器异质整合，恰好落在臺湾IC设计生态系与晶圆代工、先进封装能力的交叉点上。这四个维度的硬件规格，目前仍在被定义当中，也是探寻新机会的好时机。

2026-03-18

AI改写的不只是效率，也是毛利结构

臺湾信息电子业对毛利压力并不陌生。品牌客户每年的成本下压、产品周期缩短、规格要求提升，是这个产业几十年来的基本节奏。过去应对的方式是制程优化、规模经济、供应链整合。AI的出现不是这条路的延伸，而是改变竞争的计算方式。哈佛商学院教授Oberholzer-Gee的Value Stick框架把竞争优势拆成一个简单的公式：Value=WTP–Cost。WTP是顾客愿付的价格上限，Cost是企业的成本下限。这个差值愈大，企业可以创造与捕获的价值愈多。竞争力的本质，是持续拉大这个区间。臺湾电子业其实对这个逻辑并不陌生，只是过去很少使用这个框架思考。PC ODM时代，臺湾主要ODM业者用规模与供应链整合建立成本曲线（随产量提升而持续下降的单位成本）优势，后进者很难复制。晶圆代工龙头的逻辑更直接：良率每提升一个百分点，每颗芯片的成本就跟著下来，客户愿意支付的溢价也跟著上去，Value Stick从两端同时扩大。延伸报导专家讲堂：企业AI导入的7个层次面板业则是反面案例：规模竞争把整个产业的成本压到极限，但WTP没有跟上（市场竞争使售价持续下压，与成本同步探底），多数业者的毛利结构至今仍未完全恢复。这三个案例说明的是同一件事：成本曲线的优势一旦建立，追赶的代价是非线性的。AI带来的结构性影响，从成本与WTP两端同时展开——而成本这端，是最先被感受到的。成本这端是最直接的。IC设计业已经感受到AI工具带来的结构性变化。芯片验证是开发流程中最耗时、最昂贵的环节，过去资深工程师需要花费大量时间撰写测试程序、调整UVM test bench、反复确认覆盖率。EDA领先供应商推出的AI辅助设计优化工具，让布局最佳化与测试程序生成的部分工作可以由AI完成。根据个别设计专案的回报，PPA（功耗、效能、面积）提升达双位数百分比，设计与验证的反复修改时间显著缩短。值得注意的是，部分臺湾主要IC设计业者已不只是采用外部EDA工具，而是走向自行开发AI模型。出发点之一是设计數據的安全敏感性：核心IP不易外传至云端服务；另一方面也是对特定设计流程有更精准的优化需求。以芯片布局为例，已有业者透过强化学习（reinforcement earning）训练自有模型，在SoC布局预测上实现从数周压缩至数小时的设计周期，并公开发表于国际设计自动化顶尖会议。这个方向代表的是：AI能力的建立，开始从「购买工具」进化为「训练自有模型与内化能力」，两者的差距，未来将直接反映在研发效率与成本曲在線。EMS端同样在移动。臺湾主要EMS厂与全球GPU运算资源供应商合作建置AI工厂，已是目前最具体的公开方向：AI视觉检测取代人工目视、生产排程AI优化压缩换线时间、设备预测性维护降低非预期停机。逻辑一致：把过去依赖人力判断的环节，逐步转为AI辅助决策，让单位产出成本随规模扩张持续下降。国际管理顾问机构与商学院的研究显示，系统性导入AI工具的企业，知识工作的完成速度提升约25%、品质提升约40%，对应到制造端是良率改善、重工减少、客诉降低。WTP这端的移动比较不明显，但同样在发生。当IC设计公司能够更快完成验证、更快回应客户规格变更，品牌客户在选择设计伙伴时的考量开始改变：交期可靠性与应变速度，正在成为与价格同等重要的评估维度。对EMS厂而言，能够提供AI辅助的生产可视性与品质预测，已是部分品牌客户评估长期合作伙伴时的加分项。这不直接等于更高的售价，但等于更稳固的订单与更长的合作周期，这本身就是Value Stick上端的移动。根据国际顾问机构2024年全球调查，AI导入程度最高的4分之1企业，创造的价值是最低4分之的3至4倍。这个差距在信息电子业的具体呈现是：能够用AI压缩设计周期、提升良率、降低库存的公司，Value=WTP–Cost的数值在扩大；没有跟上的公司，面对同样的品牌客户成本下压，空间只会愈来愈窄。PC ODM时代的成本曲线建立花了10年，晶圆代工的良率优势积累更长时间。AI这条曲线的建立速度可能更快，因为工具的取得门槛低，扩散速度也快。但这反过来意味著，领先者的优势也可能更快被追上；除非持续深化、把AI能力嵌进组织的核心流程，而不只是导入工具。真正的问题不是有没有导入AI，而是AI驱动的效率累积是否已经反映在毛利结构上。至于AI带来的效率，最终能否转化为毛利结构的改变，答案会在接下来几年的财报数字里逐渐呈现。

2026-03-13

企业AI导入的7个层次

过去两年，AI科技公司市值飙升，传统本益比估值已不适用——市场溢价反映的是产业结构重组的预期，而非当期获利。对尚未投入AI的企业而言，问题不在旁观与否，而是从何切入，掌握这波AI红利。有效使用AI工具的企业，完成同样业务量所需的人力成本与工时正在缩减。这个落差当下还不明显，但历次技术变革的走向都说明同一件事：效率差距迟早会转化为成本结构的差距，而成本结构一旦落后，追赶所需的时间往往远超过补齐工具本身。企业使用AI的方式，其实有清楚的技术层次可循，从几乎零门槛的日常工具，到需要深度IT能力的定制化部署。理解这几个层次，才能找到合理的切入点。第一层：对话式AI的日常渗透。对多数企业而言，第一个接触点是ChatGPT、Claude等对话式AI，用于文件草稿、市场分析摘要、会议纪录整理、法规条文初步解读。这个入口看起来琐碎，影响却不容低估。麦肯锡（McKinsey & Company）的研究显示，使用生成式AI的知识工作者平均每天节省1.75小时；GitHub Copilot的实测数据则显示工程师完成指定任务的速度提升约55%。这一层几乎没有理由不做，唯一需要决定的是是否系统性地推动，而不是让每个员工各自摸索。第二层：嵌入工作流程的agent工具。这一层的关键不是AI「帮你建议」，而是给定目标，agent自主规划步骤、执行完成，员工负责最后审核。Cursor、Claude Code等coding agent是目前最成熟的例子，工程师描述需求，agent自己写程序、测试、除错，开发周期大幅压缩。但应用范畴已远不止于此：给定主题，agent自主产出完整投影片；描述财务逻辑，agent建公式、设架构、生成图表；会议录音进来，整理决议、分配待办、起草通知；业务开发上，agent研究目标对象、撰写个人化开发信、追踪回复进度，销售团队专注在真正需要人判断议题。当工作流程中有重复性高、步骤明确的工作，这一层值得认真评估。第三层：特定领域的第三方工具：HR的智能排班、聘雇、与绩效分析、客服的自动回复与情绪侦测、行销科技的广告投放优化，以及电商平臺如Amazon Seller Central的商品描述生成与动态定价建议。优点是导入快、ROI计算相对清晰，不需要IT深度介入；取舍是定制化空间有限，數據往往流向第三方。当特定职能有明确痛点、且不想花IT资源自建时，这是效益最快显现的选择。第四层：呼叫LLM API自建企业工具。当第三方工具无法满足需求，直接呼叫OpenAI、Anthropic、Google等的API（使用token），由内部IT开发定制化工具是下一步。例如串接内部ERP數據的智能查询界面、自动摘要供应商合约重点条款的审阅流程、根据历史订单提供采购预测的决策辅助系统。先决条件是具备一定规模的IT开发能力。數據流向云端是主要的风险考量；当这个风险可接受、且IT人力具备，这一层提供第三方工具难以达到的定制深度。第五层：自建模型环境，數據不出企业。当數據敏感度更高，或用量规模使云端API的成本不再划算，企业可以建立自己的模型环境。最常见的做法是部署开源模型，搭配RAG架构：模型的内部知识负责推理与回答，公司的文件、手册、历史纪录作为外部知识来源，在每次查询时动态检索补充，让回答有所依据。这个架构不一定需要自建实体服務器，企业可以在自己管控的云端环境中部署开源模型，运算资源租自云端、數據留在自己的空间，兼顾弹性与數據主权。对有特定领域需求的大型企业，可以进一步微调（fine-tune）开源模型，让模型精准理解内部术语与文件格式，但门槛不低，需要足够数量且标注完整的领域數據与相应的训练资源，成本可观，中小型企业直接使用RAG通常已足够。至于从头预训练（pre-training），几乎不在企业的选项之列——所需运算资源以亿美元计，是大型AI实验室才有条件投入的工作。同样在这个层次，边缘AI（Edge AI）提供另一条路线：推论直接在终端设备上执行，數據从不离开设备、延迟极低、断网也能运作。更值得关注的是企业多年累积的内部數據——制程参数、研发纪录、设备维护历史、客户交易记录——过去是沉睡的资产，现在可以透过本地部署的AI模型加以活化。不只是查询与检索，而是跨數據集推理：找出制程与良率之间人工难以发现的关联、连结多年研发纪录中被遗忘的发现、系统化留存资深员工的隐性知识。这类數據几乎不可能送上云端，本地部署的投资也因此有更明确的商业理由。第六层：整合多模型的AI决策平臺。在更高的复杂度层次，是像Palantir AIP这样的平臺：在企业既有的數據基础设施之上，同时整合多个LLM来源，让人员在不直接接触原始數據的情况下进行AI辅助决策。美国军方是其最具代表性的客户，商业端也快速拓展至制造、医疗、金融等场景。导入门槛高、周期长，但提供其他方案难以达到的整合深度与决策可稽核性。这一层适合數據环境复杂、决策责任明确、且已在第四、第五层累积相当经验的企业。成熟的企业AI策略往往是混合架构：日常文书使用云端LLM，敏感的内部知识查询走RAG加开源模型，特定职能采购第三方工具，产线實時判断、内部know-how活化走边缘AI。根据各任务的數據敏感度、使用频率与精度要求做出合理配置，不必一刀切。这7个层次表面上是技术路线的选择，背后是竞争力的重组。采用AI更彻底的企业，人均产出显著提升、决策周期缩短。对供应链而言，硬件架构的影响也同步在发生：企业端的AI推论需求快速成形，服務器、存儲器与边缘运算设备的采购逻辑正在重写。而组织层面，随著AI承接愈来愈多的文书、协调与初步判断工作，人员的职能重心从「执行」移向「决策」与「问责」——这对人才结构的重新界定，是企业领导者需要提早布局的课题。

2026-03-12

AI Token耗量持续攀升—推理模型的崛起与产业重塑

2022年下半，AI技术出现罕见的结构性转折。Frontier Model 首度同时展现出真正的泛化（Generalization）与多工能力（Multi-tasking）。泛化意味著模型学到可扩展的语义与分析能力，能在新的指令形式与问题情境下维持稳定表现；多工则意味著同一套模型可以服务翻译、摘要、图片生成、问答等截然不同的场景应用，无需为每个任务另行训练专用模型。这个突破，使AI从针对单一任务优化的垂直工具，转变为横向的通用、高成长智能服务。同时也对供应链产生實時冲击：自2022年下半起，數據中心的算力需求全面上修，GPU短缺从研究机构蔓延至企业端，并推动整条AI供应链——从芯片、服務器到应用层——重新定位。2024年的下一步：推理（Reasoning）登场。泛化与多工解决「能做什么」的问题，却没有解决「能想多深」的限制。对话式问答提供足够解方，但遇到需要多步骤逻辑推导的任务如解数学题、复杂程序除错、分析法律条文、科学探索、逻辑论证等，模型的能力局限就被暴露出来。这个落差，在2024年下半开始逐步被补上。OpenAI-o1的发布标志著推理时代的开始。推理模型呈现出更接近「System-2」的思考方式——借用心理学家康纳曼（Daniel Kahneman, 1934~2024）的框架：System-1是快速直觉式的反应，System-2是缓慢刻意的深层推理。在实际运作中，推理模型不会直接输出答案，而是先在内部展开较长的（推理）思维链（Chain-of-Thought, CoT），逐步分解问题、排查矛盾、整合逻辑，再收敛出最终回应。数学推导、程序除错、法律条文解析、医疗决策辅助——这些原本只有专业人士才能应付的复杂任务，开始出现跨越式的能力提升。推理能力的形塑，来自几个相互强化的技术突破。最基础的是思维链CoT训练。模型在训练时被要求把推理过程一并展开，而非直接给最终答案，强迫模型在解题时学会分解问题、逐步推进。这种推理的引导，显著提升复杂逻辑任务的表现。其次是强化学习（Reinforcement Learning）的深度整合。模型透过持续与真实任务互动并接收回馈，逐步找出「真正有用的答案」而非「听起来合理的答案」——这成为推理品质得以持续演进的核心机制。值得注意的是，强化学习的奖励机制，也间接强化模型「用更多token想清楚」的行为倾向——更长的思维链往往对应更好的答案，模型在训练中学会以算力（更多token）换品质。第三条路是推论时扩展（Test-Time Scaling），被视为继预训练（Pre-training）、后训练（Post-training）之后的第三条scaling law：不必重新训练模型，只需在推论（inference）阶段投入更多运算资源，让模型「想更久」，就能换取更好的答案品质。正因如此，随著用户数量增加，据报导，目前实际对用户服务时的推论运算需求，已经高于模型训练阶段的算力消耗。推理能力的代价，直接反映在token用量上。传统问答模式下，一次查询平均消耗数百个token；推理模型因为需要展开较长的内部推理步骤，每次查询的使用量往往是传统模式的10到50倍。这种倍数效应已在市场流量结构中浮现：目前推理模型的token使用量，已占整体LLM流量的6成以上，预计会持续增长。这不只是技术规格的改变，而是整个算力需求预测逻辑必须重新计算的开始。当推理能力成熟，一个更大的结构性转变随之而来：Agent 的崛起。Agent （代理人）不是升级版的聊天机器人，而是具备目标驱动、自主规划与多步骤执行能力的AI系统。没有深层推理，Agent只是预先编排好的流程；有了推理，它才能在复杂流程中深度思考，做出判断、处理例外、在不确定性中高价值任务。程序设计是第一个Agent的突破点。GitHub Copilot、Anthropic Claude与Cursor的AI coding工具，目前市占各约24%至25%，生产力提升幅度估计达1.5至3倍。从成长速度可以感受到市场反应的强度：Anthropic的年化营收（ARR）在2025年年增幅逾 800%，Cursor从1亿美元成长至10亿美元、年增达900%。法律、医疗、财务等垂直领域的跟进速度也正在加快：据报导，Harvey的法律AI ARR已达1.5亿美元。OpenEvidence在临床医疗场景的ARR同样超过 1.5 亿美元。这些垂直应用的共同特征，在于它们都依赖多步骤推理——不只是查询數據库，而是在法条、案例与临床指引之间做出复合判断，处理真实世界中的模糊与矛盾。推理的架构决定token耗量只会持续增加。每个新应用场景导入、每个Agent工作流程启动，都意味著更多的思考步骤与更高的算力消耗——这是推理模型的设计本质，不会因为效率优化而消失，只会因为应用范畴扩大而放大。对半导体、服務器、高帶寬存儲器供应链而言，这是结构性的长期需求信號。当推理能力从數字工作流程走向实体世界，影响规模可能再扩大一个量级。工厂排程、医疗诊断辅助、教育个人化、法律文件审查——这些场域一旦嵌入自主推理能力，改变的不只是工具，而是企业工作流程与人员分工的重组。这种重组很可能使对ICT基础建设的需求，从一次性的升级，转为更长期的投入。这波AI资本投入是否会在建设高峰后趋于平缓？推理模型提供一种不同的结构性逻辑。其特性在于，应用规模的扩张会直接转化为持续性的推理运算需求，而不仅是一次性的部署成本。当前推论已成为AI算力负载的主要来源，而推理型推论的运算占比不断攀升。再加上方兴未艾的Agent架构兴起，以及各种以token消耗为核心的智能服务快速普及，算力需求将不再仅仅随模型训练周期波动，而是与日常使用频率高度绑定。当使用深度与应用广度持续扩张，供应链从芯片、存儲器到电力基础设施所面对的需求动能，可能更接近结构性成长，而非单一景气循环所驱动。延伸报导专家讲堂：AI愈强，Token却愈便宜

2026-03-04