徐宏民
台灣大學信息工程学系教授
现任台灣大學信息工程学系教授,曾任富智捷(MobileDrive)技术长暨副总经理,推动ADAS及智能座舱系统产品进入全球车用市场。纽约哥伦比亚大学电机博士,专精于机器学习、电脑视觉、自驾车、机器人等领域。为讯连科技研发团队创始成员,慧景科技(thingnario)共同創始人,NVIDIA AI Lab計劃主持人;曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会,担任多家科技公司AI策略顾问。
智能机器人如何学动作技能?
煎蛋翻面不到2秒,但每一步都是连续的傳感判断与力道决策;涂果酱、摆餐盘同样如此。这类「低端技能」(atomic skill)的难点不在于执行固定轨迹,而在于复杂环境正确执行。前一篇讨论的VLA架构解决的是(高端)任务规划,本文要回答的是更深入的问题:机器人怎么把每一个(低端)基本动作做好?传统工厂机器人的动作,是不同性质的事。抓取、插件、焊接、锁螺丝,关键字是「重复性」与「受控条件」:同一款零件在同一个位置,同样的夹爪、同样的轨迹、同样的速度,不需要处理复杂变动环境。这类动作可以用固定程序精确执行,但容错空间极低,环境稍有偏差就失效。过去教导机器手臂的主流方式,叫「示教法」(teach-and-playback):操作员透过示教器(teach pendant)将手臂逐点移至目标位置、记录各路径点的关节角度,再让机器人依序重放。环境固定的场景至今仍适用,但示教法本身没有傳感(甚至推理)能力——它只知道「下一个路径点在哪里」,换了零件或场景就要重新示教,遇到变动情境也无从判断。从「执行固定轨迹」到「应对多变场景」,需要从根本上换一种动作学习逻辑。目前学界与业界收敛出2条主轴:强化学习(Reinforcement Learning;RL)与模仿学习(Imitation Learning;IL)。强化学习(RL)的基本逻辑是「从尝试中学习」。机器人不看示范,自行在环境中试探;每次移動之后,根据结果的好坏(「奖励信号」)调整策略,慢慢摸索出完成任务的方法。理论上,只要定义好成功标准(比如「蛋翻面后完整不破」),机器人甚至可能摸索出人类没想到的解法。但是,RL在实体机器人上有一个根本缺陷:它需要大量的试误次数才能收敛,而每一次试误在真实机器人上都消耗时间,且有损坏设备的风险。在模拟器里可以让机器人不眠不休地失败几百万次;搬到真实机器人上,同样的学习量可能需要几年。这就是为什么 RL 在机器人领域目前主要的定位,是在模拟环境中预训练,而非从头在实体上学习。模仿学习(IL)走的是另一条路:让机器人观察人类示范,从中学习,而非从零试误。在理解模仿学习之前,有一个基础概念值得先厘清:「策略」(policy)。策略是机器人的决策核心:给定当下的傳感状态(摄影机画面、关节角度、触觉数值),输出下一步应该执行的动作。训练机器人动作的本质,就是在训练一个好的策略。最直觉的模仿学习方式叫行为复制(behavioral cloning):把人类示范的「状态与对应动作」当作训练數據,用监督式学习训练策略。简单,但有一个根本弱点:示范都是「做对了」的过程,机器人从未学过「偏掉了该怎么办」。执行时只要出现细微偏差,后续每一步的判断都可能进一步出错,误差层层累积。任务愈长、步骤越多,这个问题愈致命。目前解决这个问题最具代表性的方向是「扩散策略」(Diffusion Policy)。它的技术来自于这几年大家熟悉的(影像)生成式 AI,背后用的就是扩散模型:从随机杂讯出发,经过多轮降噪处理,逐渐收敛出高品质影像。研究人员把同样的架构搬进机器人控制,把输出从像素值换成连续的动作序列。传统行为复制倾向输出「平均解」,遇到同一任务有多种合理做法时往往哪边都不对。扩散策略换了角度:不输出单一动作,而是学习「给定当下状态,合理动作的机率分布」,再从这个分布中采样。降噪过程同时生成接下来若干步的完整动作序列,让机器人不必每一步重新决策,动作因此更稳定、流畅。在相对少量的示范數據条件下,Diffusion Policy就能让机器手臂完成需要精细力道控制的操作任务,是目前數據效率与效果兼顾最好的方法之一。更新的策略学习方向是「流匹配」(Flow Matching)。概念更直观:与其从杂讯出发反复降噪,不如直接学习从杂讯到目标动作的最短路径,推论步骤因此大幅减少,速度更快、训练也更稳定。目前已有机器人基础模型采用此架构,在学界与业界逐渐受到重视。2条路线各有天花板。RL的试误成本在实体机器人上难以接受,目前主要在模拟环境中预训练,而非直接在实体上学习。IL的效果上限受制于示范數據的品质,示范者没做过的,机器人就不会。实务上两者通常搭配使用:模仿学习建立初始策略,强化学习在模拟环境中补足长尾情境。但不论哪条路,核心限制都指向同一件事:训练數據。这也是太平洋两岸的领先机器人研究团队们已有的共识。示范數據从哪来、如何在可接受的成本下大规模取得,已经成为这场竞赛真正的核心问题——这也是下一篇要探讨的主题。
2026-04-15
VLA(Vision-Language-Action)机器人的新智能引擎
大型语言模型(LLM)问答能力超强,让人自然产生一个直觉:把LLM接上机器人,使用语言下指令,机器人是不是就有智能移動力?直觉没错,但中间有几个结构性的缺口,填补这些缺口的解法,就是目前崛起的机器人AI新引擎:VLA(Vision-Language-Action)模型。LLM面对机器人控制有2道缺口。第一,输出格式不对:语言模型产生的是文字,不是机器手臂可以执行的动作指令。Google 2022年的SayCan研究把这个问题称为grounding gap:一个模型可以生成「拿起桌上的水瓶,放到椅子旁边」这样的规划,但这串文字如何转换成3D空间的关节运动矢量?语言叙事与实际执行之间,需要一个明确的桥接机制。第二,LLM的动作理解能力本身有结构性的弱点。史丹佛大学(Stanford)团队在NeurIPS 2024的研究中把机器人决策能力拆成4个分项分别评测,发现LLM在「连续动作规划」这项表现最弱——而这正好是机器人控制最不能缺少的能力。这不是prompt写得不好的问题,而是语言模型在训练目标上本来就不是为了预测实体世界的状态变化而设计的。VLA的架构设计,就是为了跨越这两道缺口。Google DeepMind 2023年发表的RT-2,是目前被引用最多的VLA系统之一。它的思路是:把视觉语言大模型(VLM)作为感知与理解的主干,再接上一个action head:专门负责把模型的决策输出转换成连续的动作矢量。这个架构让系统能够同时处理视觉画面与语言指令,输出的不是文字,而是实际的关节角度与末端执行器的移动指令。更重要的是,VLM在網絡规模的视觉与语言數據上预训练所获得的泛化能力(常识),在一定程度上能迁移到机器人操作的新场景上,这是过去单一任务单一模型的架构做不到的(多工能力)。开源生态也已跟上。openVLA展示同一个模型框架可以控制多种不同机械手臂;Physical Intelligence的π₀则用超过1万小时的跨平臺遥控示范數據预训练,可以让新任务的微调降到1至20小时。大语言模型「泛化」的概念开始有了工程上的实证。然而,把一个大型VLM直接接上action head、整合成单一模型的做法,有一个结构性的矛盾:VLM跑得慢(加上推理工作速度会更慢),精细控制需要跑得快。两者要处理的问题性质根本不同、运作速度也不在同一个层次。知道怎么做,和有能力把它做好,是两件性质不同的事。大脑可以清楚规划「拿起零件、对准位置、轻放入槽」,但每个步骤的实际执行,依靠的是另一套机制——精准的肌肉控制与實時的力道感知。机器人系统面对同样的分工问题,这推动学界与业界共同往分层架构的方向走:把「知道怎么做」与「有技能去完成」拆成两个系统。System 2(高端)是VLM,负责语意层次的理解与任务规划;System 1(低端)是轻量化的动作生成模型,负责把规划转换成连续、精确的关节动作,两者运作频率完全不同。NVIDIA于2024年发布的GR00T N1是目前最具代表性的公开实作——2个模塊在模拟平臺上联合训练,让System 1能以120Hz的频率控制机器人,也就是每秒更新120次动作,这是确保精细操作稳定的基本要求。但即便架构方向渐清,3个瓶颈依然尚待突破。數據是最根本的限制。语言模型的训练數據来自網絡,规模以萬億计;机器人的示范數據需要人工遥控示范逐笔收集,目前最大规模的數據集也只有几万小时等级,差距悬殊。模拟器能协助,但sim-to-real gap持续存在——模拟器在接触力、材质摩擦上的真实度仍有落差,在模拟环境训练出的策略,移到真实场景常出现非预期失误。此外,真实场域中各种难以预料的边缘情境也是挑战之一。灵巧操作(dexterous manipulation)不只是模型问题。毫米级精度的组装、软性材料的抓取,需要實時触觉回馈,而触觉傳感器的成本与可靠度仍是工程上未解的题目。这个缺口靠扩大數據规模无法完全解决,傳感器与机械结构的进化同样必要。长时序任务(long-horizon planning)则是VLA目前最难回避的限制。各样任务往往需要多个步骤依序完成,每个步骤的执行结果都影响下一步判断,误差一旦累积,之后很难修正。我们近期的研究也发现,现有模型在规划时往往专注在指令执行,却未评估目标物件在当下是否可被操作(比如微波炉脏了)——环境一旦出现未预期的状态变化,整个任务就在执行中途失效。分层架构让System 2承担规划责任,方向正确;但VLM的长时序规划能力能否支撑真实情境任务,目前还没找到系统性的方案。VLA确立语言、视觉、动作整合的架构方向,分层设计进一步回答「如何同时跑得快又想得深」这个问题。灵巧操作、长时序规划、训练數據这三道缺口尚待突破,但过去2年的技术演进速度已经说明,这些问题被解决只是时间问题。真正值得追问的下一个问题是:VLA让机器人有高端思考能力之后,机器人怎么把每一个基本动作学好?这才是整个系统能否真正部署的关键基础。
2026-04-14
机器人的ChatGPT时刻?
大型语言模型在近年展现出3个令人惊讶的能力:泛化(generalization),在从未见过的问题上给出合理答案;多任务(multitasking),同一个模型写程序、翻译、分析财报、判读法律文件;推理(reasoning),把复杂问题拆解成步骤,逐一推导出解答。正是这三个能力,让大型语言模型在數字世界掀起典范转移。下一个问题,是这些能力能否走进实体世界—不只在屏幕上思考,而是在真实空间中感知、判断、移動。这正是「具身智能」(EmbodiedAI)试图回答的问题:让模型不只是推理引擎,而是成为真实环境中的移動者。需求比想像中更迫切。谈机器人,往往让人联想到科幻场景或工厂自动化。但推动这一波发展的力量,其实更接近人口结构的现实。臺湾65岁以上人口占比已超过17%,日本早已超过29%,德国超过22%;制造业、物流业、长照产业的缺工问题,在多数已开发国家不是短期现象,而是长达数十年的结构性挑战。另一个驱动力是安全:高温、高压、有毒化学品、重复性导致的职业伤害—把人从这些场景中移出,本身就有足够的商业理由,不需要等到机器人的成本降到与人力相当。这一波机器人讨论之所以与过去不同,有一个常被忽略的前提:硬件已经准备好了。傳感器(摄影机、LiDAR、触觉傳感器)的成本在过去十年大幅下降,马达与减速机的精度持续提升,机械结构的制造良率也趋于成熟。部分得益于电动车产业的规模效应—马达、减速机、傳感器的供应链随EV量产大幅成熟,机器人硬件直接受惠。机器人整体硬件成本在2023至2024年间年降幅约达4成,下降曲线清晰可见,这与早期工业电脑、早期智能手機的轨迹高度相似。硬件不再是关键瓶颈;问题移到了「大脑」、「眼睛」与「四肢」—机器人要如何真正看懂环境、做出判断、精准完成任务?最直觉的答案是把云端LLM接进机器人。但物理世界的时间尺度与數字世界截然不同:人类在键盘上等待一秒的回应是可接受的,机器人在伸手抓取物件时若延迟半秒,轻则任务失败,重则碰撞损毁。云端推论的網絡延迟,在这个场景中是结构性的障碍,不是优化问题。自驾车产业已解决这个问题:感知与實時控制在车载边缘运算上执行,高端路径规划与地图更新则视需要呼叫云端。今天的车载SoC已有足够的算力支撑實時的视觉識別与控制决策;机器人的边缘硬件正在走同一条路。实体算力的门槛在过去几年已大幅降低,让「大脑在本地执行」从成本考量来看也愈来愈可行。技术上,这一波机器人能力的突破,核心在于VLA(Vision-Language-Action)模型架构的确立。VLA把三条原本独立的信號—视觉感知、语言指令理解、动作输出—整合进同一个神经網絡,让大语言模型的推理能力得以迁移到机器人的动作决策上。过去的机器人控制是一任务一模型,抓取、搬运、组装各有专属系统,换了场景或换了物件就得重新训练,缺乏弹性且成本高昂。VLA打破此一架构:操作者可以用自然语言描述任务,模型自主分解成动作序列并执行,即便是训练时未见过的物件或场景,也有一定的应对能力。开源模型中,openVLA在同一个模型架构下跨平臺操控多种机械手臂,展示通用操作策略的可行性;Physical Intelligence的π₀以超过1万小时的跨平臺遥控操作數據预训练,针对新任务微调只需1至20小时。「一个模型跨场景泛化」这个问题,在过去一年内开始有了系统性的肯定答案。讨论机器人时,往往局限在机械手臂的操作能力上。但在真实工作场景中,「走到目标地点」与「对它做什么」是同等重要、缺一不可的能力。这个组合在学术界称为mobile manipulation——同时具备移动底盘与操作手臂的机器人平臺,才能提供更多弹性与能力。想像一个仓储场景:机器人能自主移动到正确的货架,識別目标物件的位置,伸手抓取,再移动到指定放置点。每一个步骤都需要精确的空间理解与动作协调。固定式机械手臂只能解决「操作」这半题;移动平臺加上操作手臂,才是开启更多可能性。要让机器人在非受控环境中自主移动,导航(navigation)是必须解决的基础能力,而导航的前提是建图(mapping)—机器人必须先建立对所在空间的三维理解,才能规划路径、避开障碍。早期的机器人导航依赖预先设定的固定路线或QRcode地标,弹性极低。SLAM(Simultaneous Localization and Mapping,實時定位与地图建构)技术让机器人能在移动中同步建立环境地图并定位自身,是目前主流的导航基础。更近期的发展方向是语义地图:不只知道「那里有一个障碍物」,而是理解「那是一张椅子、那是工人、那是临时堆放的栈板」,进而做出更合理的路径判断。这个方向与VLA的语言理解能力高度相辅:机器人不只在几何空间中移动,而是在语义空间中理解环境。商业部署的信號已出现。电动车厂的整车组装线与零组件仓储,是目前规模最大的机器人商业场域;欧美汽车厂与第三方物流业者也已在工厂与配送中心导入机器人,更有弹性、拟人化的执行零件搬运,商业场域的试验已陆续展开。多家国际投资银行的分析指向同一个方向:实体(Physical AI)所面对的,是整个制造业、物流业、服务业工作流程的重新配置,而非单一产品市场的扩张。诚实评估目前的限制,是避免高估或低估这波趋势的必要功课。第一个问题是电池:目前机器人的续航约2至4小时,工厂班次通常8至12小时,补充电力需要停机,这在连续生产场景中是结构性缺口。电池能量密度的提升是化学问题,不是軟件问题,很难靠演算法突破。第二个问题是长尾场景的泛化:在受控环境下,机器人已能可靠完成标准任务,但工厂地板的一摊水、歪掉的零件箱、训练集未见过的新产品,仍常造成失误。工业场景的容错空间远低于实验室,这个缺口目前尚未被系统性地填补。第三个问题是灵巧操作(dexterous manipulation):人类手部的精度与柔顺性,在精密组装、电子制程等场景中,仍远超现有机械手的能力。从GPT-1到ChatGPT(2022年底,版本为GPT-3.5),语言模型花了四年半。机器人领域的「GPT-1时刻」大约发生在2022至2023年前后,VLA概念开始被系统性验证;我们现在大约处于GPT-2.x时刻。这里比的是能力发展的轨迹,而非模型规模。机器人还多了一道语言模型不需要面对的约束:再强的模型,最终仍须压缩到本地端执行,受算力、功耗、延迟的硬性限制,这是VLA需要额外跨越的障碍,语言模型当年并不需要面对。不过,GPT-2.x并不意味著要等。从结构固定的重复性作业,到桌面操作的弹性取放,到自主移动与场域导航,再到多工协作、人机共同执行任务,乃至需要一定推理能力的复杂流程辅助;不同成熟度的技术,对应不同层次的导入机会,不必等到全面成熟才能创造价值。这个阶段,对观望者而言似乎还早,但对决定在哪个节点进场的人而言,这可能是领先班车的最后一个上车点了!
2026-04-09
推论经济(Inference Economics)
Token价格跌了99%,这件事过去两年已成为AI产业大趋势。但有一个数字却大幅上升:「推论(inference)」算力需求。所谓推论,是模型训练完成后每次被呼叫服务客户产出回应的运算。超大规模云端业者与科技公司AI基础建设资本支出已达数千亿美元等级,其中推论占企业AI预算的比重已达85%,仍在攀升。Stanford AI Index 2025记录,达到GPT-3.5等级效能的成本2年内下降280倍(透过各种TCO系统优化策略),但全球GPU出货量与數據中心功率密度要求却同步上升。2022~2023年,AI基础建设的资本配置几乎全集中在训练,整个产业的讨论聚焦于训练算力的持续扩张。但2025年之后,这个比例已大幅翻转—在许多云端平臺的实际负载中,推论已超过训练;推论芯片市场的年销售额,预计未来5至8年成长4至6倍。推论算力的成长需求,由3个力量相乘决定,不是累加:(1)token能力持续提升、价格快速下降,兴起大量、多样的知识领域新颖应用情境;(2)推理(Reasoning)模型让每次查询的算力消耗乘以10至50倍;以及(3)第三个力量,也是最常被忽略的一个。第三个力量是agent的呼叫结构。关键不在agent能做什么,而在怎么做。单一agent完成一项任务(例如AI coding),背后并非一次LLM呼叫,而是一整个循环:规划、工具呼叫、观察结果、反思、修正,再执行,通常产生10至20次LLM呼叫;多agent系统并行运作,呼叫量再乘一个数量级。除了前文提过的AI coding,Salesforce Agentforce在2025年第4季的年度经常性营收已达8亿美元、年增169%;企业端agent部署不是未来式,是现在式,而且每个部署都在以乘数方式放大推论需求。3个力量合在一起,构成一个对市场规模的估算架构:情境数量×每个情境的推理深度×每个agent任务的呼叫次数。三者相乘,不是相加。需求乘数的另一面,是推论硬件本身的结构性改变。Google DeepMind研究人员Xiaoyu Ma与Turing Award得主David Patterson于2026年1月在IEEE发表论文"Challenges and Research Directions for Large Language Model Inference Hardware"指出,目前没有一款现有主流GPU架构主要为推论最佳化,业界仍在用训练架构执行推论工作。推论的Decode阶段(逐一吐出输出token的过程)是memory-bound,不是compute-bound。然而过去十年,硬件发展的重心一直放在运算,而非存儲器:GPU的FLOPS成长80倍,存儲器帶寬只成长17倍,这个落差还在扩大;HBM系统成本持续上升。论文因此提出4个研究方向——高帶寬Flash存儲器、近存儲器运算、3D存儲器逻辑堆叠、低延迟互连——尚未有厂商完整实现。推论需求的放大,加上硬件规格尚未收敛,正在重塑芯片采购的逻辑。OpenAI 2024年在37亿美元营收下亏损近50亿美元,推论成本正是这个结构性落差的主要因素之一;大型CSP业者们的实际回应不是等GPU厂商更新架构,而是自行设计推论专用ASIC(TPU或NPU);推论负载占比愈高,自建ASIC的TCO优势就愈明显。训练丛集的采购逻辑是「跟上GPU最新時代」;推论丛集的采购逻辑正在转变为「针对自己的模型特性与流量结构定制化」。这是两套不同的供应链需求,会在不同位置开启不同的机会。Patterson论文勾勒的研究方向,直接对应到推论丛集TCO优化的4个维度:运算端以推论专用ASIC取代GPU;通讯端以低延迟互连取代训练导向的高帶寬拓朴;储存端从HBM走向高帶寬Flash与DRAM的混合存儲器阶层;能源端把每个token的功耗列为系统设计的第一优先。4个维度都还在定义,意味著供应链格局尚未固化。「推论经济」的崛起,为GPU服務器供应链日益固化、毛利空间收窄的臺湾业者,开启新的机会。推论ASIC的设计与制造、先进封装、存儲器异质整合,恰好落在臺湾IC设计生态系与晶圆代工、先进封装能力的交叉点上。这四个维度的硬件规格,目前仍在被定义当中,也是探寻新机会的好时机。
2026-03-18
AI改写的不只是效率,也是毛利结构
臺湾信息电子业对毛利压力并不陌生。品牌客户每年的成本下压、产品周期缩短、规格要求提升,是这个产业几十年来的基本节奏。过去应对的方式是制程优化、规模经济、供应链整合。AI的出现不是这条路的延伸,而是改变竞争的计算方式。哈佛商学院教授Oberholzer-Gee的Value Stick框架把竞争优势拆成一个简单的公式:Value=WTP–Cost。WTP是顾客愿付的价格上限,Cost是企业的成本下限。这个差值愈大,企业可以创造与捕获的价值愈多。竞争力的本质,是持续拉大这个区间。臺湾电子业其实对这个逻辑并不陌生,只是过去很少使用这个框架思考。PC ODM时代,臺湾主要ODM业者用规模与供应链整合建立成本曲线(随产量提升而持续下降的单位成本)优势,后进者很难复制。晶圆代工龙头的逻辑更直接:良率每提升一个百分点,每颗芯片的成本就跟著下来,客户愿意支付的溢价也跟著上去,Value Stick从两端同时扩大。延伸报导专家讲堂:企业AI导入的7个层次面板业则是反面案例:规模竞争把整个产业的成本压到极限,但WTP没有跟上(市场竞争使售价持续下压,与成本同步探底),多数业者的毛利结构至今仍未完全恢复。这三个案例说明的是同一件事:成本曲线的优势一旦建立,追赶的代价是非线性的。AI带来的结构性影响,从成本与WTP两端同时展开——而成本这端,是最先被感受到的。成本这端是最直接的。IC设计业已经感受到AI工具带来的结构性变化。芯片验证是开发流程中最耗时、最昂贵的环节,过去资深工程师需要花费大量时间撰写测试程序、调整UVM test bench、反复确认覆盖率。EDA领先供应商推出的AI辅助设计优化工具,让布局最佳化与测试程序生成的部分工作可以由AI完成。根据个别设计专案的回报,PPA(功耗、效能、面积)提升达双位数百分比,设计与验证的反复修改时间显著缩短。值得注意的是,部分臺湾主要IC设计业者已不只是采用外部EDA工具,而是走向自行开发AI模型。出发点之一是设计數據的安全敏感性:核心IP不易外传至云端服务;另一方面也是对特定设计流程有更精准的优化需求。以芯片布局为例,已有业者透过强化学习(reinforcement earning)训练自有模型,在SoC布局预测上实现从数周压缩至数小时的设计周期,并公开发表于国际设计自动化顶尖会议。这个方向代表的是:AI能力的建立,开始从「购买工具」进化为「训练自有模型与内化能力」,两者的差距,未来将直接反映在研发效率与成本曲在線。EMS端同样在移动。臺湾主要EMS厂与全球GPU运算资源供应商合作建置AI工厂,已是目前最具体的公开方向:AI视觉检测取代人工目视、生产排程AI优化压缩换线时间、设备预测性维护降低非预期停机。逻辑一致:把过去依赖人力判断的环节,逐步转为AI辅助决策,让单位产出成本随规模扩张持续下降。国际管理顾问机构与商学院的研究显示,系统性导入AI工具的企业,知识工作的完成速度提升约25%、品质提升约40%,对应到制造端是良率改善、重工减少、客诉降低。WTP这端的移动比较不明显,但同样在发生。当IC设计公司能够更快完成验证、更快回应客户规格变更,品牌客户在选择设计伙伴时的考量开始改变:交期可靠性与应变速度,正在成为与价格同等重要的评估维度。对EMS厂而言,能够提供AI辅助的生产可视性与品质预测,已是部分品牌客户评估长期合作伙伴时的加分项。这不直接等于更高的售价,但等于更稳固的订单与更长的合作周期,这本身就是Value Stick上端的移动。根据国际顾问机构2024年全球调查,AI导入程度最高的4分之1企业,创造的价值是最低4分之的3至4倍。这个差距在信息电子业的具体呈现是:能够用AI压缩设计周期、提升良率、降低库存的公司,Value=WTP–Cost的数值在扩大;没有跟上的公司,面对同样的品牌客户成本下压,空间只会愈来愈窄。PC ODM时代的成本曲线建立花了10年,晶圆代工的良率优势积累更长时间。AI这条曲线的建立速度可能更快,因为工具的取得门槛低,扩散速度也快。但这反过来意味著,领先者的优势也可能更快被追上;除非持续深化、把AI能力嵌进组织的核心流程,而不只是导入工具。真正的问题不是有没有导入AI,而是AI驱动的效率累积是否已经反映在毛利结构上。至于AI带来的效率,最终能否转化为毛利结构的改变,答案会在接下来几年的财报数字里逐渐呈现。
2026-03-13
企业AI导入的7个层次
过去两年,AI科技公司市值飙升,传统本益比估值已不适用——市场溢价反映的是产业结构重组的预期,而非当期获利。对尚未投入AI的企业而言,问题不在旁观与否,而是从何切入,掌握这波AI红利。有效使用AI工具的企业,完成同样业务量所需的人力成本与工时正在缩减。这个落差当下还不明显,但历次技术变革的走向都说明同一件事:效率差距迟早会转化为成本结构的差距,而成本结构一旦落后,追赶所需的时间往往远超过补齐工具本身。企业使用AI的方式,其实有清楚的技术层次可循,从几乎零门槛的日常工具,到需要深度IT能力的定制化部署。理解这几个层次,才能找到合理的切入点。第一层:对话式AI的日常渗透。对多数企业而言,第一个接触点是ChatGPT、Claude等对话式AI,用于文件草稿、市场分析摘要、会议纪录整理、法规条文初步解读。这个入口看起来琐碎,影响却不容低估。麦肯锡(McKinsey & Company)的研究显示,使用生成式AI的知识工作者平均每天节省1.75小时;GitHub Copilot的实测数据则显示工程师完成指定任务的速度提升约55%。这一层几乎没有理由不做,唯一需要决定的是是否系统性地推动,而不是让每个员工各自摸索。第二层:嵌入工作流程的agent工具。这一层的关键不是AI「帮你建议」,而是给定目标,agent自主规划步骤、执行完成,员工负责最后审核。Cursor、Claude Code等coding agent是目前最成熟的例子,工程师描述需求,agent自己写程序、测试、除错,开发周期大幅压缩。但应用范畴已远不止于此:给定主题,agent自主产出完整投影片;描述财务逻辑,agent建公式、设架构、生成图表;会议录音进来,整理决议、分配待办、起草通知;业务开发上,agent研究目标对象、撰写个人化开发信、追踪回复进度,销售团队专注在真正需要人判断议题。当工作流程中有重复性高、步骤明确的工作,这一层值得认真评估。第三层:特定领域的第三方工具:HR的智能排班、聘雇、与绩效分析、客服的自动回复与情绪侦测、行销科技的广告投放优化,以及电商平臺如Amazon Seller Central的商品描述生成与动态定价建议。优点是导入快、ROI计算相对清晰,不需要IT深度介入;取舍是定制化空间有限,數據往往流向第三方。当特定职能有明确痛点、且不想花IT资源自建时,这是效益最快显现的选择。第四层:呼叫LLM API自建企业工具。当第三方工具无法满足需求,直接呼叫OpenAI、Anthropic、Google等的API(使用token),由内部IT开发定制化工具是下一步。例如串接内部ERP數據的智能查询界面、自动摘要供应商合约重点条款的审阅流程、根据历史订单提供采购预测的决策辅助系统。先决条件是具备一定规模的IT开发能力。數據流向云端是主要的风险考量;当这个风险可接受、且IT人力具备,这一层提供第三方工具难以达到的定制深度。第五层:自建模型环境,數據不出企业。当數據敏感度更高,或用量规模使云端API的成本不再划算,企业可以建立自己的模型环境。最常见的做法是部署开源模型,搭配RAG架构:模型的内部知识负责推理与回答,公司的文件、手册、历史纪录作为外部知识来源,在每次查询时动态检索补充,让回答有所依据。这个架构不一定需要自建实体服務器,企业可以在自己管控的云端环境中部署开源模型,运算资源租自云端、數據留在自己的空间,兼顾弹性与數據主权。对有特定领域需求的大型企业,可以进一步微调(fine-tune)开源模型,让模型精准理解内部术语与文件格式,但门槛不低,需要足够数量且标注完整的领域數據与相应的训练资源,成本可观,中小型企业直接使用RAG通常已足够。至于从头预训练(pre-training),几乎不在企业的选项之列——所需运算资源以亿美元计,是大型AI实验室才有条件投入的工作。同样在这个层次,边缘AI(Edge AI)提供另一条路线:推论直接在终端设备上执行,數據从不离开设备、延迟极低、断网也能运作。更值得关注的是企业多年累积的内部數據——制程参数、研发纪录、设备维护历史、客户交易记录——过去是沉睡的资产,现在可以透过本地部署的AI模型加以活化。不只是查询与检索,而是跨數據集推理:找出制程与良率之间人工难以发现的关联、连结多年研发纪录中被遗忘的发现、系统化留存资深员工的隐性知识。这类數據几乎不可能送上云端,本地部署的投资也因此有更明确的商业理由。第六层:整合多模型的AI决策平臺。在更高的复杂度层次,是像Palantir AIP这样的平臺:在企业既有的數據基础设施之上,同时整合多个LLM来源,让人员在不直接接触原始數據的情况下进行AI辅助决策。美国军方是其最具代表性的客户,商业端也快速拓展至制造、医疗、金融等场景。导入门槛高、周期长,但提供其他方案难以达到的整合深度与决策可稽核性。这一层适合數據环境复杂、决策责任明确、且已在第四、第五层累积相当经验的企业。成熟的企业AI策略往往是混合架构:日常文书使用云端LLM,敏感的内部知识查询走RAG加开源模型,特定职能采购第三方工具,产线實時判断、内部know-how活化走边缘AI。根据各任务的數據敏感度、使用频率与精度要求做出合理配置,不必一刀切。这7个层次表面上是技术路线的选择,背后是竞争力的重组。采用AI更彻底的企业,人均产出显著提升、决策周期缩短。对供应链而言,硬件架构的影响也同步在发生:企业端的AI推论需求快速成形,服務器、存儲器与边缘运算设备的采购逻辑正在重写。而组织层面,随著AI承接愈来愈多的文书、协调与初步判断工作,人员的职能重心从「执行」移向「决策」与「问责」——这对人才结构的重新界定,是企业领导者需要提早布局的课题。
2026-03-12
AI Token耗量持续攀升—推理模型的崛起与产业重塑
2022年下半,AI技术出现罕见的结构性转折。Frontier Model 首度同时展现出真正的泛化(Generalization)与多工能力(Multi-tasking)。泛化意味著模型学到可扩展的语义与分析能力,能在新的指令形式与问题情境下维持稳定表现;多工则意味著同一套模型可以服务翻译、摘要、图片生成、问答等截然不同的场景应用,无需为每个任务另行训练专用模型。这个突破,使AI从针对单一任务优化的垂直工具,转变为横向的通用、高成长智能服务。同时也对供应链产生實時冲击:自2022年下半起,數據中心的算力需求全面上修,GPU短缺从研究机构蔓延至企业端,并推动整条AI供应链——从芯片、服務器到应用层——重新定位。2024年的下一步:推理(Reasoning)登场。泛化与多工解决「能做什么」的问题,却没有解决「能想多深」的限制。对话式问答提供足够解方,但遇到需要多步骤逻辑推导的任务如解数学题、复杂程序除错、分析法律条文、科学探索、逻辑论证等,模型的能力局限就被暴露出来。这个落差,在2024年下半开始逐步被补上。OpenAI-o1的发布标志著推理时代的开始。推理模型呈现出更接近「System-2」的思考方式——借用心理学家康纳曼(Daniel Kahneman, 1934~2024)的框架:System-1是快速直觉式的反应,System-2是缓慢刻意的深层推理。在实际运作中,推理模型不会直接输出答案,而是先在内部展开较长的(推理)思维链(Chain-of-Thought, CoT),逐步分解问题、排查矛盾、整合逻辑,再收敛出最终回应。数学推导、程序除错、法律条文解析、医疗决策辅助——这些原本只有专业人士才能应付的复杂任务,开始出现跨越式的能力提升。推理能力的形塑,来自几个相互强化的技术突破。最基础的是思维链CoT训练。模型在训练时被要求把推理过程一并展开,而非直接给最终答案,强迫模型在解题时学会分解问题、逐步推进。这种推理的引导,显著提升复杂逻辑任务的表现。其次是强化学习(Reinforcement Learning)的深度整合。模型透过持续与真实任务互动并接收回馈,逐步找出「真正有用的答案」而非「听起来合理的答案」——这成为推理品质得以持续演进的核心机制。值得注意的是,强化学习的奖励机制,也间接强化模型「用更多token想清楚」的行为倾向——更长的思维链往往对应更好的答案,模型在训练中学会以算力(更多token)换品质。第三条路是推论时扩展(Test-Time Scaling),被视为继预训练(Pre-training)、后训练(Post-training)之后的第三条scaling law:不必重新训练模型,只需在推论(inference)阶段投入更多运算资源,让模型「想更久」,就能换取更好的答案品质。正因如此,随著用户数量增加,据报导,目前实际对用户服务时的推论运算需求,已经高于模型训练阶段的算力消耗。推理能力的代价,直接反映在token用量上。传统问答模式下,一次查询平均消耗数百个token;推理模型因为需要展开较长的内部推理步骤,每次查询的使用量往往是传统模式的10到50倍。这种倍数效应已在市场流量结构中浮现:目前推理模型的token使用量,已占整体LLM流量的6成以上,预计会持续增长。这不只是技术规格的改变,而是整个算力需求预测逻辑必须重新计算的开始。当推理能力成熟,一个更大的结构性转变随之而来:Agent 的崛起。Agent (代理人)不是升级版的聊天机器人,而是具备目标驱动、自主规划与多步骤执行能力的AI系统。没有深层推理,Agent只是预先编排好的流程;有了推理,它才能在复杂流程中深度思考,做出判断、处理例外、在不确定性中高价值任务。程序设计是第一个Agent的突破点。GitHub Copilot、Anthropic Claude与Cursor的AI coding工具,目前市占各约24%至25%,生产力提升幅度估计达1.5至3倍。从成长速度可以感受到市场反应的强度:Anthropic的年化营收(ARR)在2025年年增幅逾 800%,Cursor从1亿美元成长至10亿美元、年增达900%。法律、医疗、财务等垂直领域的跟进速度也正在加快:据报导,Harvey的法律AI ARR已达1.5亿美元。OpenEvidence在临床医疗场景的ARR同样超过 1.5 亿美元。这些垂直应用的共同特征,在于它们都依赖多步骤推理——不只是查询數據库,而是在法条、案例与临床指引之间做出复合判断,处理真实世界中的模糊与矛盾。推理的架构决定token耗量只会持续增加。每个新应用场景导入、每个Agent工作流程启动,都意味著更多的思考步骤与更高的算力消耗——这是推理模型的设计本质,不会因为效率优化而消失,只会因为应用范畴扩大而放大。对半导体、服務器、高帶寬存儲器供应链而言,这是结构性的长期需求信號。当推理能力从數字工作流程走向实体世界,影响规模可能再扩大一个量级。工厂排程、医疗诊断辅助、教育个人化、法律文件审查——这些场域一旦嵌入自主推理能力,改变的不只是工具,而是企业工作流程与人员分工的重组。这种重组很可能使对ICT基础建设的需求,从一次性的升级,转为更长期的投入。这波AI资本投入是否会在建设高峰后趋于平缓?推理模型提供一种不同的结构性逻辑。其特性在于,应用规模的扩张会直接转化为持续性的推理运算需求,而不仅是一次性的部署成本。当前推论已成为AI算力负载的主要来源,而推理型推论的运算占比不断攀升。再加上方兴未艾的Agent架构兴起,以及各种以token消耗为核心的智能服务快速普及,算力需求将不再仅仅随模型训练周期波动,而是与日常使用频率高度绑定。当使用深度与应用广度持续扩张,供应链从芯片、存儲器到电力基础设施所面对的需求动能,可能更接近结构性成长,而非单一景气循环所驱动。延伸报导专家讲堂:AI愈强,Token却愈便宜
2026-03-04
AI愈强,Token却愈便宜
2023年初,OpenAIGPT-4的API定价约为每百万token30美元;如今,主流前瞻模型已全面重订价格:GPT-4o mini降至0.15美元、Anthropic Claude 3.5 Haiku低至0.25美元、Google Gemini 2.0 Flash更压至0.10美元—降幅从90%到99%不等,而且仍在持续下修。这不是削价竞争,而是深层的技术与市场力量共同作用的结果,并正在引发整个AI生态系的结构性改变。3个相互强化的力量在同时作用,支撑token价格持续下降。首先是模型效率的快速提升。蒸馏(distillation)将大模型的能力压缩进更小的架构,量化(quantization)降低每次运算的位元需求,混合专家架构(MoE)让推论时只启动最相关的小網絡。同样的任务,所需算力持续缩减,而且这个技术优化态势,还没止息。其次,是系统层级的优化。产业界已清楚Transformer推论的运算瓶颈——矩阵乘法占了绝大多数计算量,KVCache的存儲器存取效率与帶寬配置直接影响延迟,而批次处理策略则决定整体吞吐量。从编译器最佳化、推论排程到硬件与系统层的整体优化,让同一套硬件能服务更多prompt、产出更多token。以Google为例,透过TPU与模型、系统的协同优化,在特定工作负载下推论能效出现数倍到数十倍等级的提升,显示推论成本仍有可观的下降空间。接著是竞争格局的根本改变。DeepSeek-R1、Meta LLaMA3、阿里巴巴Qwen2.5等开源模型持续追近闭源frontier模型的效能(约落后7个月),打破少数大厂的定价垄断。开源模型的全球部署量已占整体AI使用的约3成,也成了市场定价基准的压力源。Token成本的持续下降,正在同步触发3个层面的连锁反应。第一,是AI推论应用的急遽扩张。当每百万token的成本从过去的高价模型,下降到数十分美分至数美元等级,大量原本「因成本不具经济效益」的场景开始跨越可行门槛。个人化邮件撰写、實時翻译、文件摘要、程序码生成、多语客服回复、会议纪录整理、合约审阅辅助、报表初稿产生等任务,不再只是试验性功能,而逐步成为工作流程中的常态模塊。关键不在于成本归零,而在于边际成本已低到足以长时间、完整部署推论服务,让AI从「偶尔使用的工具」转变为持续运行的生产力工具。第二,是Agent对工作流程的全面渗透。低成本token是Agent得以规模化的前提。这一点已在市场成长速度上反映出来:Anthropic的营收规模近年快速进入数十亿美元级距,年增幅达数倍;Cursor等AI coding工具在短时间内从千万美元级别,跃升至上亿美元年化营收,成为成长最快的一批AI SaaS产品。这些成长快速的新创几乎无一例外地以agent或workflow automation为核心定位——无论是Anthropic、Harvey、Glean——产品路线指向的是自主代理与垂直工作流程整合,而非单纯的聊天界面。一个agent往往需要与多个工具连续互动、发出数十次甚至上百次API呼叫才能完成任务。token成本的每一次下降,都在直接扩大agent可运行的任务边界与商业规模,同时也引发更多的token用量。第三是价值的持续上移。最具体的案例是程序码生成。Cursor、ClaudeCode等AI coding agent以Claude与GPT-4o为核心引擎,正在重塑开发者的工作流程,而非只是IDE的外挂。Microsoft 365 Copilot、Anthropic Claude将AI能力直接嵌入Excel的公式建议与數據分析、PowerPoint的简报生成、Teams的實時摘要,使AI不再是独立查询工具,而成为日常工作的缺省助手。根据DIGITIMES Research的市场观察,AI产业价值占比将在2026至2028由硬件逐步转向軟件与服务,而应用层的渗透速度,将成为下一阶段竞争的真正起点。成本的持续下压,让另一端的问题更加凸显:如何继续压低生产token的成本(TCO)?显现在2个产业核心。芯片架构是第一个关键。各大CSP正加速投入自研ASIC,针对Transformer推论的计算模式深度最佳化,在特定工作负载下可实现数倍等级的能效提升,使算力成本的下降速度不再完全受制于通用GPU的产品节奏。电力则是更根本的制约因素。高密度AI數據中心的电费往往占营运成本的相当比例,当规模扩张到一定程度,电力取得能力往往比服務器采购能力更早触及上限。近年新數據中心的选址优先顺序已悄悄改变——稳定电力供给逐渐取代土地成本成为首要考量。多家能源研究机构预测,全球數據中心电力需求在未来数年将出现倍数成长,AI扩张的真正瓶颈,已从芯片转向能源。Token成本持续骤降,是AI进入第二阶段的信号。第一阶段的核心问题是「能不能做到」,竞争集中在最先进模型的能力竞赛;第二阶段的问题已经不同——谁能把TCO压得够低、把平臺做得够开放,让更多应用在上面生长,才是真正的决胜点。接下来几年,与其看各家发布什么新模型,不如看推论成本降到哪里、开发者生态有多活跃,以及有多少垂直应用选择在平臺上发展;这些變量的交会处,才是下一波市场重心真正落脚的位置。对臺湾而言,半导体与服務器供应链能否持续协助全球客户优化整体TCO,将决定我们在这一波Token通缩浪潮中的角色与分量。
2026-03-03
Energy + Intelligence:AI竞赛新指标
过去几年,全球大型语言模型(LLM)的早期竞赛几乎都围绕在「评测指标」上。硅谷公司们所引领的这场「AI军备竞赛」,倚赖公开评测基准(benchmark)来展现AI实力:从 MMLU 的跨学科知识、BBH的复杂推论、GSM8K的数学应用、HumanEval的程序设计,到HellaSwag的常识推论、以及Winogrande的语境理解,这些测试成了模型在赛场追逐的技术指标。叙事也极为直接:分数代表能力,分数就是王道。于是,技术优化的路径几乎被锁定——设计更大的模型、注入更多的數據、投入更庞大资本、集中高密度运算资源。然而,当各家模型在标准化测试中不断刷新纪录,「这些评测是否真能代表真实场域」的疑虑也随之浮现。为了凸显AI的场域能力,2024年起,Google与 OpenAI 先后尝试让模型挑战国际数学奥林匹亚(IMO)题目,被视为复杂推论的终极考验,但这些挑战,终究无法反映大众日常的使用场景。于是,美国柏克莱大学研究团队打造的Chatbot Arena,透过大规模真人盲测,让使用者的「体感」直接成为裁判,建立一个更贴近市场的「用户价值」新战场。同时,开源社群则以下载次数、社群优化程度作为佐证,强调模型在实际应用中的应用性。于是,在传统基准分数之外,用户体验与主观感受逐渐成为另一个攸关胜负的评价指标。对于后进者而言,要在AI竞赛中打破既有格局,必须找到不同的切入维度,创造出非对称的攻防空间。这在中国科技公司身上表现得尤为明显:一方面受制于地缘政治,高端芯片的取得受限;另一方面则处于内部竞争极度激烈的环境。在双重压力下,他们不仅追逐「效能极致」,更积极在「系统层」寻求突破。透过垂直整合,挑战者试图以降低训练与推论的「成本」作为切入点,将AI的价值主张,从单纯比拼模型「智能高度」,拓展到「商业效益」的务实层面。这意味著,竞争焦点从「谁更聪明」、「谁的体验更好」,进一步扩展为「谁更务实」:除了「能不能做到」、「好不好用」,还得回答「能不能普及」。 AI 竞赛中积极追赶的Google,发挥自身在數據中心的多年经验,提出另一个关键指标,永续(Sustainable)LLM。在最新发表的研究中,Google 团队揭露:当用户发送一个文字提示(prompt)给Gemini模型时,平均需要消耗 0.24 Wh能量、0.03克二氧化碳,以及0.26毫升水。换句话说,1次文字生成的能源成本,大致相当于看电视9秒钟,或饮用5滴水的等效能耗。需要注意的是,这些数据是以Gemini应用的能耗「中位数」文本提示为基准,并仅限于文字问答场景,尚未涵盖影像或影音等更复杂的生成任务。此外,研究范围也只涉及推论(inference)阶段,而不含更高能耗的训练过程。即便如此,这份报告仍让外界难得窥见营运中大型语言模型背后的「AI 能源帐单」。根据其他研究,目前 LLM 的训练与推论能耗比例约为4 : 6,显示推论已成为整体AI能源足迹中不可忽视的主角。更有意思的是,透过这个研究,我们也看到大模型推论时,各能耗的占比。结果显示,AI加速器(TPU/GPU)消耗约58%的能量,接著是主机CPU与存儲器约占24%,而數據中心的基础设施负担(包含冷却、电力转换等overhead)与备份/高可用性设备共占约18% 。这样的分布非常值得注意:超过一半的能源用在模型运算本身,然而近乎一成也不能被忽略地用于「系统维持与可靠性保障」的功用。更让人惊讶的是,Google 报告同时指出,在过去一年,透过硬件(如 TPU、通讯、储存等)与軟件堆叠的优化,AI 推论的能耗1年内降低33倍,碳排放则下降44倍。这显示能效提升的速度,远远超过我们对摩尔定律的想像。显然在系统层级「Energy + Intelligence」共同考虑下,存在非常大的发挥空间。能源不仅是珍贵资源,更界定AI智能的边界,也迫切需要永续洁净能源的支持:因为「净零碳排」(Net Zero)要求。在这方面,Google 已逐步展开布局:在碳会计的Scope 2范畴(购买电力的间接排放)中,近年持续加码全球各地的再生能源采购,包括太阳能与风能,主动透过市场签订长期的洁净能源合约,确保數據中心与业务能获得稳定的低碳电力。同时,Google也尝试将數據中心转换为绿能资产,并借由参与电网的「需量反应」(demand response)服务,于尖峰时段调整用电量,提升电网稳定。可以预见,随著大型语言模型进入「效率优化」的新阶段,系统层级的调校将比单纯模型演算法更为关键。Google 报告中已开始纳入Scope 1、Scope 2与Scope 3的碳排放计算,而Scope 3更直接牵涉到供应链:从芯片、服務器、网通零组件到各类供应商的碳排责任,最后都会加总进国际云端与AI营运商的ESG帐本。如果国际CSP大厂、前瞻AI模型公司加速要求供应链提供ESG指标,我们在地的ICT供应商,是否已经准备好?这意味著ESG不再只是合规清单,而是全球市场透明度与竞争力的核心要求。对臺湾ICT产业而言,大语言的永续指标至少带来3个启示:第一,效能不再是唯一圭臬,效益才是。芯片与服務器不只要快,更要省,否则难以在全球 AI 供应链中站稳脚步。第二,Net Zero正在成为产品竞争指标,能源效率与碳排揭露将成为跨国合作的必要条件。第三,治理力就是竞争力——能否把算力、能耗与永续整合进企业叙事,将决定企业在全球舞臺的份量。AI的新指标已经浮现:从技术到商业,再到责任与环境(能源)成本,AI竞赛的下半场将不只是「谁更聪明」,而是「谁能在智能与能源之间找到平衡」。对产业而言,同时考量「Energy + Intelligence」,是产品策略与产业定位的新常态。
2025-09-15
Energy + Intelligence:AI优化能源效率与韧性
Intelligence需要能源当作燃料供应,同样的,AI技术的发展,也正提升能源的韧性以及效率。AI与能源互相为用:AI需要更可靠、更干净的电,能源系统也需要AI提供准确预测、快速维运,以及可信赖的控制。当我们开始纳入「AI for Science」探索材料与化学新结构、能源探勘,以及地球天气的基础模型,更可以理解为何Energy+Intelligence为企业及国家贡献的关键竞争力。AI不仅是能源消费大户,也正在各个面向优化新能源应用,包括:(一)发电方式、来源的探勘、发电优化,(二)电网稳定,及(三)降低耗电及用电端优化。在发电与储能端,AI正加速能源资源的探勘与新材质研发。透过地震波与电磁感应数据分析,AI可更精准侦测地热资源;在海域与山谷,AI对潮汐与风速的长期预测,能帮助规划最佳的风机与潮汐发电位置。材料科学领域也因AI for Science而出现突破,例如AlphaFold2在蛋白质结构预测的成功,有机会用来加速电池与太阳能板材料开发。过去太阳能发电每提升1%可能需耗时数年,AI有机会将开发周期缩短30~50%,并在固态电池、氢能储能等新兴领域找到更安全、更高能量密度的材料组合。AI正在成为解决再生能源「间歇性」问题的核心工具。风电、太阳能、潮汐等发电量深受天气影响,输出曲线常常在几分钟到几小时内大幅波动,这意味著其他发电机组(如天然气、煤、水力)必须實時补上缺口,或透过储能设备平滑输出。AI的价值在于提前预测这些变化,让调度单位能在几小时甚至几天前准备好备援計劃,因为各个能源系统启动的成本以及需要的预置时间不同,从几秒到几个小时。Google DeepMind与英国国家电网的合作案例显示,透过AI预测风电输出,准确度提升直接让风能的经济价值增加20%。同样的,臺湾也正使用AI系统预测未来4到72小时太阳光电的变化,提供电力调度依据。再生能源预测与地球的天气系统变化息息相关。生成式AI的进展也推升「地球系统基础模型」的整合,例如最近《Nature》上发表的AURORA基础模型,能同时处理空气品质、海浪、台风与天气预测,比传统数值分析快上数十倍,且能在不同地区与时间条件下预测,对于掌握再生能源间歇性的太阳光辐射、风速、潮汐等有很大的助益。同时,准确的天气预测(大雨、温度)也能掌握用电端的用量趋势,协助智能电网分区负载平衡、电池充放电优化,甚至办公大楼与工厂的需量反应(减少电网用电)。当预测能力与调度能力打通,AI不只是再生能源的辅助工具,而是让再生能源成为稳定、可规划的资源。在维运端,AI的价值在于找回「可回复损失」,并缩短从侦测到修复的时间。以太阳光电为例,电站层级的停机、组串层级的污损与遮荫、电气层级的接触不良与误停,都会造成可观的损失。數據驱动的诊断可以在至小时级侦测到异常型态,配合工作单与现场流程,将修复时间压到最短;在风电、燃气与燃煤机组上,同样的技术可用于振动与温度特征的早期侦测,以延长寿命、降低突发停机。我们的经验发现,在大型太阳能案场使用AI驱动的监控服务,可以将发电损失由5.5%降至0.9%,以短期臺湾20 GW的太阳能目标(2025年时)来看,可以省下将近4个超大型太阳能案场的规模。在新一代电网中,稳定供电不再只是「发多少、用多少」的平衡,而是必须在复杂且瞬息变化的情境下,同步协调发电、充放电、价格预测与供需调度。这需要在边缘(edge)實時运算与决策的AI系统,透过傳感器与IoT架构收集數字电表、风机、变压器、输电设备等實時數據,提前预警设备异常、降低停机风险。同时协调各种发电来源、储能电池与用电端,组成虚拟电厂(VPP),在尖峰时段回馈电网。传统多依赖规则式控制,如今可结合强化学习(Reinforcement Learning),在模拟中反复优化策略,提升调度效率。由于能源已被欧盟《AI Act》列为高风险应用,这类系统必须兼顾可解释性与审查机制,确保关键决策既快速又可追溯。在此情境下,EdgeAI也会逐渐在能源扮演关键角色。能源转型不仅带来产业结构的重整,还创造智能电网与绿能服务的新机会。当AI融入能源,发电、输配、储能与用电端不再彼此独立,而是透过演算法与實時數據紧密整合,形成具备韧性、可优化且能交易的动态網絡,让能源成为可被弹性调度的资产。数据呈现这一趋势背后的产业规模:AI在再生能源市场的规模,从2022年约6亿美元,预计将跃升至2032年的46亿美元,年复合成长率达23.2%。同时,智能能源市场(smart energy)在2022年约为153.8亿美元,预测将成长至2030年约316.4亿美元,年复合成长率约9.6%。显而易见,Intelligence与Energy的结合已成为全球基础建设的双引擎,在AI主权、能源安全、与气候议题三重压力下,更是国家与企业竞争优势发展关键。
2025-08-20
订阅椽经阁电子报
 
新文章上刊时发送,提供您DIGITIMES专家及顾问群的最新观点、见解。
智能应用 影音