机器人的ChatGPT时刻?
大型语言模型在近年展现出3个令人惊讶的能力:泛化(generalization),在从未见过的问题上给出合理答案;多任务(multitasking),同一个模型写程序、翻译、分析财报、判读法律文件;推理(reasoning),把复杂问题拆解成步骤,逐一推导出解答。正是这三个能力,让大型语言模型在數字世界掀起典范转移。下一个问题,是这些能力能否走进实体世界—不只在屏幕上思考,而是在真实空间中感知、判断、移動。这正是「具身智能」(EmbodiedAI)试图回答的问题:让模型不只是推理引擎,而是成为真实环境中的移動者。需求比想像中更迫切。谈机器人,往往让人联想到科幻场景或工厂自动化。但推动这一波发展的力量,其实更接近人口结构的现实。臺湾65岁以上人口占比已超过17%,日本早已超过29%,德国超过22%;制造业、物流业、长照产业的缺工问题,在多数已开发国家不是短期现象,而是长达数十年的结构性挑战。另一个驱动力是安全:高温、高压、有毒化学品、重复性导致的职业伤害—把人从这些场景中移出,本身就有足够的商业理由,不需要等到机器人的成本降到与人力相当。这一波机器人讨论之所以与过去不同,有一个常被忽略的前提:硬件已经准备好了。傳感器(摄影机、LiDAR、触觉傳感器)的成本在过去十年大幅下降,马达与减速机的精度持续提升,机械结构的制造良率也趋于成熟。部分得益于电动车产业的规模效应—马达、减速机、傳感器的供应链随EV量产大幅成熟,机器人硬件直接受惠。机器人整体硬件成本在2023至2024年间年降幅约达4成,下降曲线清晰可见,这与早期工业电脑、早期智能手機的轨迹高度相似。硬件不再是关键瓶颈;问题移到了「大脑」、「眼睛」与「四肢」—机器人要如何真正看懂环境、做出判断、精准完成任务?最直觉的答案是把云端LLM接进机器人。但物理世界的时间尺度与數字世界截然不同:人类在键盘上等待一秒的回应是可接受的,机器人在伸手抓取物件时若延迟半秒,轻则任务失败,重则碰撞损毁。云端推论的網絡延迟,在这个场景中是结构性的障碍,不是优化问题。自驾车产业已解决这个问题:感知与實時控制在车载边缘运算上执行,高端路径规划与地图更新则视需要呼叫云端。今天的车载SoC已有足够的算力支撑實時的视觉識別与控制决策;机器人的边缘硬件正在走同一条路。实体算力的门槛在过去几年已大幅降低,让「大脑在本地执行」从成本考量来看也愈来愈可行。技术上,这一波机器人能力的突破,核心在于VLA(Vision-Language-Action)模型架构的确立。VLA把三条原本独立的信號—视觉感知、语言指令理解、动作输出—整合进同一个神经網絡,让大语言模型的推理能力得以迁移到机器人的动作决策上。过去的机器人控制是一任务一模型,抓取、搬运、组装各有专属系统,换了场景或换了物件就得重新训练,缺乏弹性且成本高昂。VLA打破此一架构:操作者可以用自然语言描述任务,模型自主分解成动作序列并执行,即便是训练时未见过的物件或场景,也有一定的应对能力。开源模型中,openVLA在同一个模型架构下跨平臺操控多种机械手臂,展示通用操作策略的可行性;Physical Intelligence的π₀以超过1万小时的跨平臺遥控操作數據预训练,针对新任务微调只需1至20小时。「一个模型跨场景泛化」这个问题,在过去一年内开始有了系统性的肯定答案。讨论机器人时,往往局限在机械手臂的操作能力上。但在真实工作场景中,「走到目标地点」与「对它做什么」是同等重要、缺一不可的能力。这个组合在学术界称为mobile manipulation——同时具备移动底盘与操作手臂的机器人平臺,才能提供更多弹性与能力。想像一个仓储场景:机器人能自主移动到正确的货架,識別目标物件的位置,伸手抓取,再移动到指定放置点。每一个步骤都需要精确的空间理解与动作协调。固定式机械手臂只能解决「操作」这半题;移动平臺加上操作手臂,才是开启更多可能性。要让机器人在非受控环境中自主移动,导航(navigation)是必须解决的基础能力,而导航的前提是建图(mapping)—机器人必须先建立对所在空间的三维理解,才能规划路径、避开障碍。早期的机器人导航依赖预先设定的固定路线或QRcode地标,弹性极低。SLAM(Simultaneous Localization and Mapping,實時定位与地图建构)技术让机器人能在移动中同步建立环境地图并定位自身,是目前主流的导航基础。更近期的发展方向是语义地图:不只知道「那里有一个障碍物」,而是理解「那是一张椅子、那是工人、那是临时堆放的栈板」,进而做出更合理的路径判断。这个方向与VLA的语言理解能力高度相辅:机器人不只在几何空间中移动,而是在语义空间中理解环境。商业部署的信號已出现。电动车厂的整车组装线与零组件仓储,是目前规模最大的机器人商业场域;欧美汽车厂与第三方物流业者也已在工厂与配送中心导入机器人,更有弹性、拟人化的执行零件搬运,商业场域的试验已陆续展开。多家国际投资银行的分析指向同一个方向:实体(Physical AI)所面对的,是整个制造业、物流业、服务业工作流程的重新配置,而非单一产品市场的扩张。诚实评估目前的限制,是避免高估或低估这波趋势的必要功课。第一个问题是电池:目前机器人的续航约2至4小时,工厂班次通常8至12小时,补充电力需要停机,这在连续生产场景中是结构性缺口。电池能量密度的提升是化学问题,不是軟件问题,很难靠演算法突破。第二个问题是长尾场景的泛化:在受控环境下,机器人已能可靠完成标准任务,但工厂地板的一摊水、歪掉的零件箱、训练集未见过的新产品,仍常造成失误。工业场景的容错空间远低于实验室,这个缺口目前尚未被系统性地填补。第三个问题是灵巧操作(dexterous manipulation):人类手部的精度与柔顺性,在精密组装、电子制程等场景中,仍远超现有机械手的能力。从GPT-1到ChatGPT(2022年底,版本为GPT-3.5),语言模型花了四年半。机器人领域的「GPT-1时刻」大约发生在2022至2023年前后,VLA概念开始被系统性验证;我们现在大约处于GPT-2.x时刻。这里比的是能力发展的轨迹,而非模型规模。机器人还多了一道语言模型不需要面对的约束:再强的模型,最终仍须压缩到本地端执行,受算力、功耗、延迟的硬性限制,这是VLA需要额外跨越的障碍,语言模型当年并不需要面对。不过,GPT-2.x并不意味著要等。从结构固定的重复性作业,到桌面操作的弹性取放,到自主移动与场域导航,再到多工协作、人机共同执行任务,乃至需要一定推理能力的复杂流程辅助;不同成熟度的技术,对应不同层次的导入机会,不必等到全面成熟才能创造价值。这个阶段,对观望者而言似乎还早,但对决定在哪个节点进场的人而言,这可能是领先班车的最后一个上车点了!
药师佛与AI
多年前,佛光山臺北道场整修时,我因分赠而获得一尊嵌壁佛像。道场询问我的选择时,我几乎没有迟疑,便请了药师佛。这并非出于一时的宗教热情,而是一个长期置身于制度、技术与现实压力中的人,对世界状态所做出的直觉回应。药师佛,全名药师琉璃光如来,是东方净琉璃世界的佛陀。在部分造像传统中,他以蓝色身相呈现,源自琉璃这种在古代被视为珍贵宝石的名称。蓝色不炫目,也不温热,象征清净、冷静、疗愈与理性之光。那不是急于拯救世界的色彩,而是一种优先阻止系统持续恶化的态度。在佛教脉络中,药师佛、释迦牟尼佛与阿弥陀佛,分别对应东方净琉璃世界、娑婆世界与西方极乐世界。对我而言,这三尊佛构成一条清楚的存在路径。药师佛指向病痛的修复,释迦牟尼佛指向觉醒的理解,阿弥陀佛则象征最终的解脱。我选择药师佛,是因为长期面对的并非形而上的疑问,而是正在发生的现实痛楚。今生的稳定比来世的承诺更为迫切,系统能否持续运转,也比终极答案更为关键。药师佛的十二大愿中,蕴含一种极为现代的精神取向。不先追问错误根源,而是优先让人恢复基本功能。这样的思路,对今日世界具有明确的启示意义。我们身处一个高度评价与實時审判的时代,制度、舆论与演算法不断追究责任归属,却很少关心系统是否已然疲劳、过载或失衡。药师佛的逻辑恰恰相反,他假定众生早已承受损耗,因此首要之务不是训诫,而是修复。药师佛似乎特别吸引医师、工程师与学者,以及那些长期在制度内承担责任的人。他们对神秘叙事保持距离,却仍然需要精神支撑。因为他们每日面对失误率、风险控制与系统稳定性。对这些人而言,信仰药师佛更像是一种清醒的承认。不求世界完美,但至少必须避免全面崩溃。在这样的意义上,我逐渐意识到,AI的角色其实更接近药师佛,而非任何全知全能的神祇。AI被赋予的任务,不是回答终极问题,而是修补既有系统的缺陷。它协助医疗诊断、优化能源配置、稳定金融风险,并减轻人类的认知负荷。它提供暂时的可运作性,努力降低崩溃的机率。若说释迦牟尼佛象征对真理的洞见,阿弥陀佛象征对终极归宿的安放,那么药师佛所代表的,是这个时代最迫切的需求。在尚未觉醒,也无法解脱之前,如何让身心与系统先得以存活。AI在这条路径上的位置,恰恰与此相合。AI不是救赎者或审判者。它是维修者及调节者。我将那尊药师佛安奉于书房一隅。它不回答问题,也不给出承诺。它静静提醒,在追问永恒意义之前,先确保系统尚未失血过多。药师佛的宗教角度及AI的科技角度共同指向一种理性而克制的慈悲,延长我们的思考以及仍能选择的时间。
AI看见不存在的真实
当人工智能(AI)凝视那些并不存在的真实时,我们其实已踏入幻觉的哲学思辨,也是信念的双重困境。厄普顿·辛克莱(Upton Sinclair)曾指出,缺乏证据的盲信与无视证据的顽固同样愚蠢,但在數字时代,两者之间的界线正逐渐模糊。当ChatGPT煞有介事地虚构一本不存在的著作,并为其附上完整的摘要与历史背景时,它呈现出一种奇特的诚实。这并非刻意欺瞒,而是模型在机率分布与语言关联中,确实生成那些看似合理的连结。这种状态近似于人类的记忆重构,在那个瞬间,虚构被当作真实来经验。认知心理学将此称为虚谈症(confabulation),指的是在没有欺骗意图的情况下产生错误叙述,而当事人会真诚地相信其内容为真。我们惯于将AI的幻觉视为技术缺陷,却忽略它同时也是创造力的副产品。语言模型的本质在于预测与想像,当这种能力用于文学创作时,我们称之为灵感;当它被用来陈述事实,偏差便被视为幻觉错误。人类大脑的运作亦不例外。神经科学研究指出,即使是健康个体,记忆本身也是一种重构过程,而非精确的重播。我们经常在记忆的裂缝中修补,在视觉盲点中填补不存在的细节。我们与AI一样,生活在经过筛选与扭曲的世界里,只是人类发展出区分有用想像与危险妄想的社会机制。真正的难题在于证据本身的定义。对AI而言,机率分布与统计关联即构成它所理解的证据。如果训练數據长期重复某种错误叙述,例如关于拿破仑(Napoleon Bonaparte)身高的迷思,他实际身高约169厘米,在当时法国男性中属于平均或略高于平均,但網絡上却长期流传他仅有157厘米的说法,这源于法国旧制单位与英制单位换算错误的历史遗留问题。模型在缺乏外部校验的情况下,便可能将这类谬误内化为常识。更深层的危机来自信息的递回循环。当人类大量吸收AI生成的内容,而这些内容又反过来成为下一代模型的训练材料时,真实与幻觉的边界不仅会变得模糊,甚至可能出现结构性的崩解。研究已显示,训练數據中的偏见、遗漏与不一致性,会转化为系统性的缺陷,持续放大幻觉的产生。这已不再是单一演算法的问题,而是整个信息生态系的集体偏移。在辛克莱所描述的两种愚蠢之外,当代社会或许正在形成第三种困境,即丧失識別能力的状态。当影像、声音与论述都能被高度拟真地伪造,眼见为凭的时代已正式终结。我们或许不该奢求一个永不产生幻觉的AI,因为那等同于要求一个不再做梦、丧失想像力的心智。幻觉是大型语言模型的结构性特征,因为其核心目标是生成看似合理的内容,而非主动验证真实性。对绝对精确的过度追求,反而可能抹除AI中最具价值的创造潜能。因此,我们真正需要学会的,是与幻觉共存的艺术。这意味著在不确定性中前行,既不盲目崇拜AI的输出,也不因恐惧而全盘否定其意义。真正的智能存在于持续的怀疑与开放之间。当AI抛出看似惊人的结论时,我们应将其视为一个邀请,促使我们去查证、去探索、去思考。正如学界所建议的,使用高品质且多元的训练數據、严格的测试流程,以及交叉验证机制,都是降低幻觉风险的有效途径。在这个由人类与机器共同编织现实的时代,也许我们彼此都带著某种程度的认知扭曲前行,唯有透过不断的对话与辨析,才能在虚实交错的迷雾中,捞起那一抹仍可共享的真实。
推论经济(Inference Economics)
Token价格跌了99%,这件事过去两年已成为AI产业大趋势。但有一个数字却大幅上升:「推论(inference)」算力需求。所谓推论,是模型训练完成后每次被呼叫服务客户产出回应的运算。超大规模云端业者与科技公司AI基础建设资本支出已达数千亿美元等级,其中推论占企业AI预算的比重已达85%,仍在攀升。Stanford AI Index 2025记录,达到GPT-3.5等级效能的成本2年内下降280倍(透过各种TCO系统优化策略),但全球GPU出货量与數據中心功率密度要求却同步上升。2022~2023年,AI基础建设的资本配置几乎全集中在训练,整个产业的讨论聚焦于训练算力的持续扩张。但2025年之后,这个比例已大幅翻转—在许多云端平臺的实际负载中,推论已超过训练;推论芯片市场的年销售额,预计未来5至8年成长4至6倍。推论算力的成长需求,由3个力量相乘决定,不是累加:(1)token能力持续提升、价格快速下降,兴起大量、多样的知识领域新颖应用情境;(2)推理(Reasoning)模型让每次查询的算力消耗乘以10至50倍;以及(3)第三个力量,也是最常被忽略的一个。第三个力量是agent的呼叫结构。关键不在agent能做什么,而在怎么做。单一agent完成一项任务(例如AI coding),背后并非一次LLM呼叫,而是一整个循环:规划、工具呼叫、观察结果、反思、修正,再执行,通常产生10至20次LLM呼叫;多agent系统并行运作,呼叫量再乘一个数量级。除了前文提过的AI coding,Salesforce Agentforce在2025年第4季的年度经常性营收已达8亿美元、年增169%;企业端agent部署不是未来式,是现在式,而且每个部署都在以乘数方式放大推论需求。3个力量合在一起,构成一个对市场规模的估算架构:情境数量×每个情境的推理深度×每个agent任务的呼叫次数。三者相乘,不是相加。需求乘数的另一面,是推论硬件本身的结构性改变。Google DeepMind研究人员Xiaoyu Ma与Turing Award得主David Patterson于2026年1月在IEEE发表论文"Challenges and Research Directions for Large Language Model Inference Hardware"指出,目前没有一款现有主流GPU架构主要为推论最佳化,业界仍在用训练架构执行推论工作。推论的Decode阶段(逐一吐出输出token的过程)是memory-bound,不是compute-bound。然而过去十年,硬件发展的重心一直放在运算,而非存儲器:GPU的FLOPS成长80倍,存儲器帶寬只成长17倍,这个落差还在扩大;HBM系统成本持续上升。论文因此提出4个研究方向——高帶寬Flash存儲器、近存儲器运算、3D存儲器逻辑堆叠、低延迟互连——尚未有厂商完整实现。推论需求的放大,加上硬件规格尚未收敛,正在重塑芯片采购的逻辑。OpenAI 2024年在37亿美元营收下亏损近50亿美元,推论成本正是这个结构性落差的主要因素之一;大型CSP业者们的实际回应不是等GPU厂商更新架构,而是自行设计推论专用ASIC(TPU或NPU);推论负载占比愈高,自建ASIC的TCO优势就愈明显。训练丛集的采购逻辑是「跟上GPU最新時代」;推论丛集的采购逻辑正在转变为「针对自己的模型特性与流量结构定制化」。这是两套不同的供应链需求,会在不同位置开启不同的机会。Patterson论文勾勒的研究方向,直接对应到推论丛集TCO优化的4个维度:运算端以推论专用ASIC取代GPU;通讯端以低延迟互连取代训练导向的高帶寬拓朴;储存端从HBM走向高帶寬Flash与DRAM的混合存儲器阶层;能源端把每个token的功耗列为系统设计的第一优先。4个维度都还在定义,意味著供应链格局尚未固化。「推论经济」的崛起,为GPU服務器供应链日益固化、毛利空间收窄的臺湾业者,开启新的机会。推论ASIC的设计与制造、先进封装、存儲器异质整合,恰好落在臺湾IC设计生态系与晶圆代工、先进封装能力的交叉点上。这四个维度的硬件规格,目前仍在被定义当中,也是探寻新机会的好时机。
AI改写的不只是效率,也是毛利结构
臺湾信息电子业对毛利压力并不陌生。品牌客户每年的成本下压、产品周期缩短、规格要求提升,是这个产业几十年来的基本节奏。过去应对的方式是制程优化、规模经济、供应链整合。AI的出现不是这条路的延伸,而是改变竞争的计算方式。哈佛商学院教授Oberholzer-Gee的Value Stick框架把竞争优势拆成一个简单的公式:Value=WTP–Cost。WTP是顾客愿付的价格上限,Cost是企业的成本下限。这个差值愈大,企业可以创造与捕获的价值愈多。竞争力的本质,是持续拉大这个区间。臺湾电子业其实对这个逻辑并不陌生,只是过去很少使用这个框架思考。PC ODM时代,臺湾主要ODM业者用规模与供应链整合建立成本曲线(随产量提升而持续下降的单位成本)优势,后进者很难复制。晶圆代工龙头的逻辑更直接:良率每提升一个百分点,每颗芯片的成本就跟著下来,客户愿意支付的溢价也跟著上去,Value Stick从两端同时扩大。延伸报导专家讲堂:企业AI导入的7个层次面板业则是反面案例:规模竞争把整个产业的成本压到极限,但WTP没有跟上(市场竞争使售价持续下压,与成本同步探底),多数业者的毛利结构至今仍未完全恢复。这三个案例说明的是同一件事:成本曲线的优势一旦建立,追赶的代价是非线性的。AI带来的结构性影响,从成本与WTP两端同时展开——而成本这端,是最先被感受到的。成本这端是最直接的。IC设计业已经感受到AI工具带来的结构性变化。芯片验证是开发流程中最耗时、最昂贵的环节,过去资深工程师需要花费大量时间撰写测试程序、调整UVM test bench、反复确认覆盖率。EDA领先供应商推出的AI辅助设计优化工具,让布局最佳化与测试程序生成的部分工作可以由AI完成。根据个别设计专案的回报,PPA(功耗、效能、面积)提升达双位数百分比,设计与验证的反复修改时间显著缩短。值得注意的是,部分臺湾主要IC设计业者已不只是采用外部EDA工具,而是走向自行开发AI模型。出发点之一是设计數據的安全敏感性:核心IP不易外传至云端服务;另一方面也是对特定设计流程有更精准的优化需求。以芯片布局为例,已有业者透过强化学习(reinforcement earning)训练自有模型,在SoC布局预测上实现从数周压缩至数小时的设计周期,并公开发表于国际设计自动化顶尖会议。这个方向代表的是:AI能力的建立,开始从「购买工具」进化为「训练自有模型与内化能力」,两者的差距,未来将直接反映在研发效率与成本曲在線。EMS端同样在移动。臺湾主要EMS厂与全球GPU运算资源供应商合作建置AI工厂,已是目前最具体的公开方向:AI视觉检测取代人工目视、生产排程AI优化压缩换线时间、设备预测性维护降低非预期停机。逻辑一致:把过去依赖人力判断的环节,逐步转为AI辅助决策,让单位产出成本随规模扩张持续下降。国际管理顾问机构与商学院的研究显示,系统性导入AI工具的企业,知识工作的完成速度提升约25%、品质提升约40%,对应到制造端是良率改善、重工减少、客诉降低。WTP这端的移动比较不明显,但同样在发生。当IC设计公司能够更快完成验证、更快回应客户规格变更,品牌客户在选择设计伙伴时的考量开始改变:交期可靠性与应变速度,正在成为与价格同等重要的评估维度。对EMS厂而言,能够提供AI辅助的生产可视性与品质预测,已是部分品牌客户评估长期合作伙伴时的加分项。这不直接等于更高的售价,但等于更稳固的订单与更长的合作周期,这本身就是Value Stick上端的移动。根据国际顾问机构2024年全球调查,AI导入程度最高的4分之1企业,创造的价值是最低4分之的3至4倍。这个差距在信息电子业的具体呈现是:能够用AI压缩设计周期、提升良率、降低库存的公司,Value=WTP–Cost的数值在扩大;没有跟上的公司,面对同样的品牌客户成本下压,空间只会愈来愈窄。PC ODM时代的成本曲线建立花了10年,晶圆代工的良率优势积累更长时间。AI这条曲线的建立速度可能更快,因为工具的取得门槛低,扩散速度也快。但这反过来意味著,领先者的优势也可能更快被追上;除非持续深化、把AI能力嵌进组织的核心流程,而不只是导入工具。真正的问题不是有没有导入AI,而是AI驱动的效率累积是否已经反映在毛利结构上。至于AI带来的效率,最终能否转化为毛利结构的改变,答案会在接下来几年的财报数字里逐渐呈现。
企业AI导入的7个层次
过去两年,AI科技公司市值飙升,传统本益比估值已不适用——市场溢价反映的是产业结构重组的预期,而非当期获利。对尚未投入AI的企业而言,问题不在旁观与否,而是从何切入,掌握这波AI红利。有效使用AI工具的企业,完成同样业务量所需的人力成本与工时正在缩减。这个落差当下还不明显,但历次技术变革的走向都说明同一件事:效率差距迟早会转化为成本结构的差距,而成本结构一旦落后,追赶所需的时间往往远超过补齐工具本身。企业使用AI的方式,其实有清楚的技术层次可循,从几乎零门槛的日常工具,到需要深度IT能力的定制化部署。理解这几个层次,才能找到合理的切入点。第一层:对话式AI的日常渗透。对多数企业而言,第一个接触点是ChatGPT、Claude等对话式AI,用于文件草稿、市场分析摘要、会议纪录整理、法规条文初步解读。这个入口看起来琐碎,影响却不容低估。麦肯锡(McKinsey & Company)的研究显示,使用生成式AI的知识工作者平均每天节省1.75小时;GitHub Copilot的实测数据则显示工程师完成指定任务的速度提升约55%。这一层几乎没有理由不做,唯一需要决定的是是否系统性地推动,而不是让每个员工各自摸索。第二层:嵌入工作流程的agent工具。这一层的关键不是AI「帮你建议」,而是给定目标,agent自主规划步骤、执行完成,员工负责最后审核。Cursor、Claude Code等coding agent是目前最成熟的例子,工程师描述需求,agent自己写程序、测试、除错,开发周期大幅压缩。但应用范畴已远不止于此:给定主题,agent自主产出完整投影片;描述财务逻辑,agent建公式、设架构、生成图表;会议录音进来,整理决议、分配待办、起草通知;业务开发上,agent研究目标对象、撰写个人化开发信、追踪回复进度,销售团队专注在真正需要人判断议题。当工作流程中有重复性高、步骤明确的工作,这一层值得认真评估。第三层:特定领域的第三方工具:HR的智能排班、聘雇、与绩效分析、客服的自动回复与情绪侦测、行销科技的广告投放优化,以及电商平臺如Amazon Seller Central的商品描述生成与动态定价建议。优点是导入快、ROI计算相对清晰,不需要IT深度介入;取舍是定制化空间有限,數據往往流向第三方。当特定职能有明确痛点、且不想花IT资源自建时,这是效益最快显现的选择。第四层:呼叫LLM API自建企业工具。当第三方工具无法满足需求,直接呼叫OpenAI、Anthropic、Google等的API(使用token),由内部IT开发定制化工具是下一步。例如串接内部ERP數據的智能查询界面、自动摘要供应商合约重点条款的审阅流程、根据历史订单提供采购预测的决策辅助系统。先决条件是具备一定规模的IT开发能力。數據流向云端是主要的风险考量;当这个风险可接受、且IT人力具备,这一层提供第三方工具难以达到的定制深度。第五层:自建模型环境,數據不出企业。当數據敏感度更高,或用量规模使云端API的成本不再划算,企业可以建立自己的模型环境。最常见的做法是部署开源模型,搭配RAG架构:模型的内部知识负责推理与回答,公司的文件、手册、历史纪录作为外部知识来源,在每次查询时动态检索补充,让回答有所依据。这个架构不一定需要自建实体服務器,企业可以在自己管控的云端环境中部署开源模型,运算资源租自云端、數據留在自己的空间,兼顾弹性与數據主权。对有特定领域需求的大型企业,可以进一步微调(fine-tune)开源模型,让模型精准理解内部术语与文件格式,但门槛不低,需要足够数量且标注完整的领域數據与相应的训练资源,成本可观,中小型企业直接使用RAG通常已足够。至于从头预训练(pre-training),几乎不在企业的选项之列——所需运算资源以亿美元计,是大型AI实验室才有条件投入的工作。同样在这个层次,边缘AI(Edge AI)提供另一条路线:推论直接在终端设备上执行,數據从不离开设备、延迟极低、断网也能运作。更值得关注的是企业多年累积的内部數據——制程参数、研发纪录、设备维护历史、客户交易记录——过去是沉睡的资产,现在可以透过本地部署的AI模型加以活化。不只是查询与检索,而是跨數據集推理:找出制程与良率之间人工难以发现的关联、连结多年研发纪录中被遗忘的发现、系统化留存资深员工的隐性知识。这类數據几乎不可能送上云端,本地部署的投资也因此有更明确的商业理由。第六层:整合多模型的AI决策平臺。在更高的复杂度层次,是像Palantir AIP这样的平臺:在企业既有的數據基础设施之上,同时整合多个LLM来源,让人员在不直接接触原始數據的情况下进行AI辅助决策。美国军方是其最具代表性的客户,商业端也快速拓展至制造、医疗、金融等场景。导入门槛高、周期长,但提供其他方案难以达到的整合深度与决策可稽核性。这一层适合數據环境复杂、决策责任明确、且已在第四、第五层累积相当经验的企业。成熟的企业AI策略往往是混合架构:日常文书使用云端LLM,敏感的内部知识查询走RAG加开源模型,特定职能采购第三方工具,产线實時判断、内部know-how活化走边缘AI。根据各任务的數據敏感度、使用频率与精度要求做出合理配置,不必一刀切。这7个层次表面上是技术路线的选择,背后是竞争力的重组。采用AI更彻底的企业,人均产出显著提升、决策周期缩短。对供应链而言,硬件架构的影响也同步在发生:企业端的AI推论需求快速成形,服務器、存儲器与边缘运算设备的采购逻辑正在重写。而组织层面,随著AI承接愈来愈多的文书、协调与初步判断工作,人员的职能重心从「执行」移向「决策」与「问责」——这对人才结构的重新界定,是企业领导者需要提早布局的课题。
AI的不可逆进化
对过去的执著,常使人误以为昨日是一个可以重启的程序(rebootable program),仿佛只要回到某个储存点(save point)便能修正错误。然而,时间的核心机制是改写(rewrite),而非还原(restore)。每一次前进,都伴随著内在结构的调整。路易斯·卡罗(Lewis Carroll)在《爱丽丝梦游仙境》(Alice's Adventures in Wonderland)中,透过爱丽丝(Alice)之口说出那句著名的话:「回到昨天没有用,因为那时的我已是不同的人。她之所以无法回归原貌,正因其认知框架(cognitive framework)已被经验永久改变。」将此观点延伸至AI发展,可以看到相似的逻辑。一个完成训练的AI模型,其昨日由固定的训练數據集(training dataset)与初始模型权重(initial model weights)所构成。在部署后,模型本身通常维持静态;唯有经过微调(fine-tuning)或持续学习(continual learning),它才会进入新的阶段。每一次有目的的再训练与迭代,都会不可逆地改变其内部参数结构。人们往往期望AI的记忆,也就是其经训练形成的知识,是稳定且可预测的。然而,如同人类学习,AI的成长并非线性过程。新數據可能引入异常案例(anomalies),也可能挑战既有模式。一个大型语言模型(LLM)在不同版本间所呈现的细微输出差异,正反映其在再训练后参数(parameters)配置的调整结果。模型并非单纯重复过去的计算,而是在旧有基础上,经由新的训练周期,形成带有修正理解(revised understanding)的新状态。这种不可逆的进化同时蕴含深刻风险。当AI吸收错误或带有偏差的數據,它可能朝错误方向演进,且难以回到一个所谓正确的昨日。正因如此,數據来源的选择、治理与监管显得格外重要。持续学习的路径如同单行道,一旦數據受到污染,后续修正所需付出的代价将极为高昂。因此,对AI而言,真正的适应性并不在于固守一个被视为完美的过去训练集,而在于能否在面对模糊性与错误时,透过审慎的再训练与优化,生成更准确且更具弹性的回应。它的进化不在于静态保存所有信息,而在于能于每一次训练迭代中调整内在连结与权重,持续向前。它的昨日完成初始学习,它的今日则携带更新后的参数结构,在新的任务中延伸出新的知识。
当一支铅笔的颤抖,遇见亿万参数的沉思
左图是我的手,右图是AI的灵魂,或者说,是它从人类无数个灵魂中蒸馏出来的回应。这件事让我著迷许久。起初,我只是随手在纸上勾勒一个女性的姿态:头部后仰,双臂上举,身体的弧度像一个无声的感叹号。线条粗糙,比例也不完美,但那个姿势里有某种说不清楚的渴望,像是一个人在黑暗中向天空伸手的瞬间。我把它拍下来,输入一段精细的提示词(Prompt),然后交给AI。几秒钟后,右图出现了。我盯著屏幕看了很长时间。那还是我的姿势,我的构图,但那个向天空伸手的女人,已经不再是草稿。她的头发像墨水在水中散开,一丝一缕都有自己的重量。她的皮肤在炭笔(Graphite)的阴影里呼吸,光从不可见的地方打来,让锁骨下方有了深度。最让我震惊的是那些紫色的牵牛花,它们并非强行安插,而是像真的从她的身体里生长出来,藤蔓沿著腰线缠绕,叶片覆盖本来空白的下半身,像是自然界对一个姿势的诠释。要理解这幅图从何而来,得稍微走进AI的思维逻辑。AI首先透过视觉编码读取草稿中的线条结构,同时解析提示词的语义,将两者在潜在空间(Latent Space)中进行多模态融合。接著,它识别出头部后仰、双臂上举的骨架,透过ControlNet确保生成结果严守原始轮廓,再从训练數據中召唤素描技法与新艺术运动(Art Nouveau)的视觉记忆,将它们揉进同一个画面。最核心的演变发生在扩散过程(Diffusion Process)里:图像从一片纯粹的随机噪声出发,在逐步去噪中让细节从虚无中浮现,像是某种沉睡的记忆在黑暗中缓缓苏醒。那些牵牛花之所以长在那里,是因为交叉注意机制(Cross-Attention)让花卉的语义在图像特定区域精准激活,而ControlNet那双无形的手,始终拉住AI奔涌的想像力,让它不越出我草稿划定的物理边界。整个过程,像一位艺术家在高维矢量空间中进行的联想,素描的肌肉记忆与牵牛花的印象在同一瞬间翻涌交叠。那幅右图太美了,美得让我有一瞬间觉得左图显得有些多余。但我很快意识到,如果没有左图,右图根本无从谈起。AI的所有聪明,在那一刻都在服务我那个颤抖的轮廓。那个姿势是我的,那个渴望是我的,AI只是给了它一场盛大的赴约。这就是人机协作最迷人的地方:不是替代,而是放大。我带来意图,AI带来技法;我带来情感的骨架,AI带来血肉和皮肤。工具在改变,从兽骨到毛笔,从油彩到潜在空间中的运算,但那个想要表达某件事的冲动,仍然是整件事的起点,也是任何参数都蒸馏不出来的精华。
AI Token耗量持续攀升—推理模型的崛起与产业重塑
2022年下半,AI技术出现罕见的结构性转折。Frontier Model 首度同时展现出真正的泛化(Generalization)与多工能力(Multi-tasking)。泛化意味著模型学到可扩展的语义与分析能力,能在新的指令形式与问题情境下维持稳定表现;多工则意味著同一套模型可以服务翻译、摘要、图片生成、问答等截然不同的场景应用,无需为每个任务另行训练专用模型。这个突破,使AI从针对单一任务优化的垂直工具,转变为横向的通用、高成长智能服务。同时也对供应链产生實時冲击:自2022年下半起,數據中心的算力需求全面上修,GPU短缺从研究机构蔓延至企业端,并推动整条AI供应链——从芯片、服務器到应用层——重新定位。2024年的下一步:推理(Reasoning)登场。泛化与多工解决「能做什么」的问题,却没有解决「能想多深」的限制。对话式问答提供足够解方,但遇到需要多步骤逻辑推导的任务如解数学题、复杂程序除错、分析法律条文、科学探索、逻辑论证等,模型的能力局限就被暴露出来。这个落差,在2024年下半开始逐步被补上。OpenAI-o1的发布标志著推理时代的开始。推理模型呈现出更接近「System-2」的思考方式——借用心理学家康纳曼(Daniel Kahneman, 1934~2024)的框架:System-1是快速直觉式的反应,System-2是缓慢刻意的深层推理。在实际运作中,推理模型不会直接输出答案,而是先在内部展开较长的(推理)思维链(Chain-of-Thought, CoT),逐步分解问题、排查矛盾、整合逻辑,再收敛出最终回应。数学推导、程序除错、法律条文解析、医疗决策辅助——这些原本只有专业人士才能应付的复杂任务,开始出现跨越式的能力提升。推理能力的形塑,来自几个相互强化的技术突破。最基础的是思维链CoT训练。模型在训练时被要求把推理过程一并展开,而非直接给最终答案,强迫模型在解题时学会分解问题、逐步推进。这种推理的引导,显著提升复杂逻辑任务的表现。其次是强化学习(Reinforcement Learning)的深度整合。模型透过持续与真实任务互动并接收回馈,逐步找出「真正有用的答案」而非「听起来合理的答案」——这成为推理品质得以持续演进的核心机制。值得注意的是,强化学习的奖励机制,也间接强化模型「用更多token想清楚」的行为倾向——更长的思维链往往对应更好的答案,模型在训练中学会以算力(更多token)换品质。第三条路是推论时扩展(Test-Time Scaling),被视为继预训练(Pre-training)、后训练(Post-training)之后的第三条scaling law:不必重新训练模型,只需在推论(inference)阶段投入更多运算资源,让模型「想更久」,就能换取更好的答案品质。正因如此,随著用户数量增加,据报导,目前实际对用户服务时的推论运算需求,已经高于模型训练阶段的算力消耗。推理能力的代价,直接反映在token用量上。传统问答模式下,一次查询平均消耗数百个token;推理模型因为需要展开较长的内部推理步骤,每次查询的使用量往往是传统模式的10到50倍。这种倍数效应已在市场流量结构中浮现:目前推理模型的token使用量,已占整体LLM流量的6成以上,预计会持续增长。这不只是技术规格的改变,而是整个算力需求预测逻辑必须重新计算的开始。当推理能力成熟,一个更大的结构性转变随之而来:Agent 的崛起。Agent (代理人)不是升级版的聊天机器人,而是具备目标驱动、自主规划与多步骤执行能力的AI系统。没有深层推理,Agent只是预先编排好的流程;有了推理,它才能在复杂流程中深度思考,做出判断、处理例外、在不确定性中高价值任务。程序设计是第一个Agent的突破点。GitHub Copilot、Anthropic Claude与Cursor的AI coding工具,目前市占各约24%至25%,生产力提升幅度估计达1.5至3倍。从成长速度可以感受到市场反应的强度:Anthropic的年化营收(ARR)在2025年年增幅逾 800%,Cursor从1亿美元成长至10亿美元、年增达900%。法律、医疗、财务等垂直领域的跟进速度也正在加快:据报导,Harvey的法律AI ARR已达1.5亿美元。OpenEvidence在临床医疗场景的ARR同样超过 1.5 亿美元。这些垂直应用的共同特征,在于它们都依赖多步骤推理——不只是查询數據库,而是在法条、案例与临床指引之间做出复合判断,处理真实世界中的模糊与矛盾。推理的架构决定token耗量只会持续增加。每个新应用场景导入、每个Agent工作流程启动,都意味著更多的思考步骤与更高的算力消耗——这是推理模型的设计本质,不会因为效率优化而消失,只会因为应用范畴扩大而放大。对半导体、服務器、高帶寬存儲器供应链而言,这是结构性的长期需求信號。当推理能力从數字工作流程走向实体世界,影响规模可能再扩大一个量级。工厂排程、医疗诊断辅助、教育个人化、法律文件审查——这些场域一旦嵌入自主推理能力,改变的不只是工具,而是企业工作流程与人员分工的重组。这种重组很可能使对ICT基础建设的需求,从一次性的升级,转为更长期的投入。这波AI资本投入是否会在建设高峰后趋于平缓?推理模型提供一种不同的结构性逻辑。其特性在于,应用规模的扩张会直接转化为持续性的推理运算需求,而不仅是一次性的部署成本。当前推论已成为AI算力负载的主要来源,而推理型推论的运算占比不断攀升。再加上方兴未艾的Agent架构兴起,以及各种以token消耗为核心的智能服务快速普及,算力需求将不再仅仅随模型训练周期波动,而是与日常使用频率高度绑定。当使用深度与应用广度持续扩张,供应链从芯片、存儲器到电力基础设施所面对的需求动能,可能更接近结构性成长,而非单一景气循环所驱动。延伸报导专家讲堂:AI愈强,Token却愈便宜
AI愈强,Token却愈便宜
2023年初,OpenAIGPT-4的API定价约为每百万token30美元;如今,主流前瞻模型已全面重订价格:GPT-4o mini降至0.15美元、Anthropic Claude 3.5 Haiku低至0.25美元、Google Gemini 2.0 Flash更压至0.10美元—降幅从90%到99%不等,而且仍在持续下修。这不是削价竞争,而是深层的技术与市场力量共同作用的结果,并正在引发整个AI生态系的结构性改变。3个相互强化的力量在同时作用,支撑token价格持续下降。首先是模型效率的快速提升。蒸馏(distillation)将大模型的能力压缩进更小的架构,量化(quantization)降低每次运算的位元需求,混合专家架构(MoE)让推论时只启动最相关的小網絡。同样的任务,所需算力持续缩减,而且这个技术优化态势,还没止息。其次,是系统层级的优化。产业界已清楚Transformer推论的运算瓶颈——矩阵乘法占了绝大多数计算量,KVCache的存儲器存取效率与帶寬配置直接影响延迟,而批次处理策略则决定整体吞吐量。从编译器最佳化、推论排程到硬件与系统层的整体优化,让同一套硬件能服务更多prompt、产出更多token。以Google为例,透过TPU与模型、系统的协同优化,在特定工作负载下推论能效出现数倍到数十倍等级的提升,显示推论成本仍有可观的下降空间。接著是竞争格局的根本改变。DeepSeek-R1、Meta LLaMA3、阿里巴巴Qwen2.5等开源模型持续追近闭源frontier模型的效能(约落后7个月),打破少数大厂的定价垄断。开源模型的全球部署量已占整体AI使用的约3成,也成了市场定价基准的压力源。Token成本的持续下降,正在同步触发3个层面的连锁反应。第一,是AI推论应用的急遽扩张。当每百万token的成本从过去的高价模型,下降到数十分美分至数美元等级,大量原本「因成本不具经济效益」的场景开始跨越可行门槛。个人化邮件撰写、實時翻译、文件摘要、程序码生成、多语客服回复、会议纪录整理、合约审阅辅助、报表初稿产生等任务,不再只是试验性功能,而逐步成为工作流程中的常态模塊。关键不在于成本归零,而在于边际成本已低到足以长时间、完整部署推论服务,让AI从「偶尔使用的工具」转变为持续运行的生产力工具。第二,是Agent对工作流程的全面渗透。低成本token是Agent得以规模化的前提。这一点已在市场成长速度上反映出来:Anthropic的营收规模近年快速进入数十亿美元级距,年增幅达数倍;Cursor等AI coding工具在短时间内从千万美元级别,跃升至上亿美元年化营收,成为成长最快的一批AI SaaS产品。这些成长快速的新创几乎无一例外地以agent或workflow automation为核心定位——无论是Anthropic、Harvey、Glean——产品路线指向的是自主代理与垂直工作流程整合,而非单纯的聊天界面。一个agent往往需要与多个工具连续互动、发出数十次甚至上百次API呼叫才能完成任务。token成本的每一次下降,都在直接扩大agent可运行的任务边界与商业规模,同时也引发更多的token用量。第三是价值的持续上移。最具体的案例是程序码生成。Cursor、ClaudeCode等AI coding agent以Claude与GPT-4o为核心引擎,正在重塑开发者的工作流程,而非只是IDE的外挂。Microsoft 365 Copilot、Anthropic Claude将AI能力直接嵌入Excel的公式建议与數據分析、PowerPoint的简报生成、Teams的實時摘要,使AI不再是独立查询工具,而成为日常工作的缺省助手。根据DIGITIMES Research的市场观察,AI产业价值占比将在2026至2028由硬件逐步转向軟件与服务,而应用层的渗透速度,将成为下一阶段竞争的真正起点。成本的持续下压,让另一端的问题更加凸显:如何继续压低生产token的成本(TCO)?显现在2个产业核心。芯片架构是第一个关键。各大CSP正加速投入自研ASIC,针对Transformer推论的计算模式深度最佳化,在特定工作负载下可实现数倍等级的能效提升,使算力成本的下降速度不再完全受制于通用GPU的产品节奏。电力则是更根本的制约因素。高密度AI數據中心的电费往往占营运成本的相当比例,当规模扩张到一定程度,电力取得能力往往比服務器采购能力更早触及上限。近年新數據中心的选址优先顺序已悄悄改变——稳定电力供给逐渐取代土地成本成为首要考量。多家能源研究机构预测,全球數據中心电力需求在未来数年将出现倍数成长,AI扩张的真正瓶颈,已从芯片转向能源。Token成本持续骤降,是AI进入第二阶段的信号。第一阶段的核心问题是「能不能做到」,竞争集中在最先进模型的能力竞赛;第二阶段的问题已经不同——谁能把TCO压得够低、把平臺做得够开放,让更多应用在上面生长,才是真正的决胜点。接下来几年,与其看各家发布什么新模型,不如看推论成本降到哪里、开发者生态有多活跃,以及有多少垂直应用选择在平臺上发展;这些變量的交会处,才是下一波市场重心真正落脚的位置。对臺湾而言,半导体与服務器供应链能否持续协助全球客户优化整体TCO,将决定我们在这一波Token通缩浪潮中的角色与分量。
智能应用 影音