Token帐单之后:AI运算架构的5层重组

徐宏民
2026-05-29

2024年下半,我有机会和一家硅谷前瞻大模型公司的高层交流。我问了一个问题:为了减轻服務器端的推论负载,有没有可能把部分工作移到终端装置,甚至开通新的应用情境?

对方的回答很直接:根据他们的研究,这完全不可能。几个月后,2025年农历年前后,一场模型效率的突破事件让业界重新检视这个可能性。「完全不可能」,在不到一年内被现实修正。

目前的资本流向,几乎清一色集中在最顶层。据部分研究机构估计,2025年美国數據中心建设规模(含规划中与施工中)已逼近80 GW;多家财经媒体的报导指出,主要科技业者的资本支出预计在2026年合计达到约6,600亿美元,其中逾8成直接流向AI數據中心。业界观察者以「没有放缓迹象」形容这波投资热度,并点出其结构性而非周期性的特征。热点在哪里,目前的答案很清楚。

但另一组力量也在累积,而且有个不直觉的地方值得点出。2023年初,主流前瞻模型的API定价约为每百万token 30美元;如今已全面跌至0.1至0.25美元,降幅达90至99%,且仍在下修(本专栏〈AI越强,Token却越便宜〉)。

按照直觉,token这么便宜,AI帐单应该缩水。现实却相反:推论模型、agent呼叫链等需求乘数,让总用量的成长速度远超单价下滑的速度,帐单不减反增(本专栏〈推论经济学〉)。「在哪里推论、用什么规模推论」,已从架构选项变成经营决策。

若把AI推论的基础设施从当前的资本重心到未来的部署前瞻排列,我们推估大致可分为5层。

最顶层也是目前投资最密集的,是超大规模AI工厂——以GW为单位,服务全球通用推论工作负载。这一层的竞争逻辑是纯粹的规模经济,几个大型云端厂商之间的较量,进入门槛极高,只有少数企业能直接介入的市场。

往下一层是受监管或主权级AI數據中心。欧盟的AI法规、中东的數字主权政策、东南亚各国对數據本地化的立法,都在把特定产业或政府机构推向「必须在受控环境内完成推论」的处境。需求最明确的是国家安全相关机构——推论工作不只不能出境,往往还需要在实体隔离的环境中完成,对硬件安全认证的要求远高于一般企业。金融和医疗等私部门虽然约束程度较低,但面对的本质问题相同。这一层的采购决策往往由法遵、风控或安全主管部门驱动,销售周期和评估标准与其他层截然不同。

企业AI數據中心目前是成长最快的一层。金融业、医疗机构、制造业领导厂商,在评估AI推论的部署位置时,部分选择自建而非公有云,驱动力不只是长期成本,更多是數據不愿外传的现实考量。这一层需要一定规模的IT组织支撑。

对有自建能力的大型企业而言,推论需求愈大,自建的TCO优势就愈明显——每个token的运算成本、能源效率与系统使用率,都成为设计的核心参数,而非事后才考量的营运细节。但没有足够IT资源的中小企业,直接跨入的风险不低。

中小型本地服務器对应有一定技术能力、但不想完全依赖公有云的中小企业或部门级部署。有一个长期被低估的现实:许多企业过去透过NAS等本地储存,累积大量业务數據——检验纪录、作业日志、客户往来文件——因为法遵、成本或帶寬的限制,从未上云,也从未被真正利用。本地推论服務器的出现,让这批沉睡數據第一次有机会被语言模型处理,不需要把數據传出去,也不需要支付庞大的云端费用。这一层真正的门槛不是资本支出,而是IT人力的可得性。

第五层是终端装置。从手机上的智能语音助理、工厂边缘的视觉检测,到需要實時感知与动作决策的自主机器人,这一层的关键是延迟与离线可用性,而非运算规模。机器人在实体空间执移動作,几乎没有等待云端回应的余裕,断线就意味著停摆;这让终端推论从「可选项」变成系统设计的前提。需要大型模型推论或长篇上下文的任务,目前仍难以在这一层完成。但这条限制的边界正在移动。我们曾以封包(packet)的演进为例分析过(本专栏〈鉴往知来:packet vs. token〉):互聯網早期的运算重心在服務器端,当封包成功进入移動設備,才催生智能手機与长达10年的移動生态系爆发。token往终端装置移动,似乎正在走出类似的路径——使用需求的拉力模型轻量化的持续推进,以及本地端推论硬件的能力提升,3个条件正在相继具备。近中期更可能的形态是混合并存,而非全面取代;但这一层的成长方向相当确定。

这个层结构能够同时成立,背后有几个技术条件在近两年相继成熟:模型轻量化让前瞻模型得以在更少的硬件上完成推论;开放权重模型的能力持续追近闭源模型,且可以自行部署、不依赖特定厂商界面;法规与地缘政治的压力,则让受监管數據中心这一层的需求有了更稳定的支撑。三者缺一,分层格局就难以成立。

这个趋势不代表顶层的投资退烧——各方数据显示那一层的建设力道仍在持续。各层同步展开,需求规模扩张,而非资源从顶层向下转移。竞争重心过去集中在顶层的大规模服務器与散热解决方案;现在,每一层都有不同的系统规格需求——低功耗推论芯片、针对推论工作负载优化的中密度服務器、安全法遵的系统整合,直到终端装置的边缘推论模塊。能否针对不同层次的客户需求给出有差异的回应,或许正是这波扩张中新机会的所在。

台灣大學信息工程学系教授,曾任富士康集团与Stellantis合资车用科技公司技术长暨副总经理,推动ADAS及智能座舱系统产品进入全球车用市场。纽约哥伦比亚大学电机博士,专精于机器学习、电脑视觉、自驾车、机器人等领域。为讯连科技研发团队创始成员,慧景科技(thingnario)共同創始人,NVIDIA AI Lab計劃主持人;曾任IBM华生研究中心及美国微软研究院客座研究员。担任多家科技公司AI策略顾问,习惯从学术与产业双重视角检验技术发展的机会与挑战。<br>
智能应用 影音