Token帐单之后：AI运算架构的5层重组

徐宏民

2026-05-29

2024年下半，我有机会和一家硅谷前瞻大模型公司的高层交流。我问了一个问题：为了减轻服務器端的推论负载，有没有可能把部分工作移到终端装置，甚至开通新的应用情境？

对方的回答很直接：根据他们的研究，这完全不可能。几个月后，2025年农历年前后，一场模型效率的突破事件让业界重新检视这个可能性。「完全不可能」，在不到一年内被现实修正。

目前的资本流向，几乎清一色集中在最顶层。据部分研究机构估计，2025年美国數據中心建设规模（含规划中与施工中）已逼近80 GW；多家财经媒体的报导指出，主要科技业者的资本支出预计在2026年合计达到约6,600亿美元，其中逾8成直接流向AI數據中心。业界观察者以「没有放缓迹象」形容这波投资热度，并点出其结构性而非周期性的特征。热点在哪里，目前的答案很清楚。

但另一组力量也在累积，而且有个不直觉的地方值得点出。2023年初，主流前瞻模型的API定价约为每百万token 30美元；如今已全面跌至0.1至0.25美元，降幅达90至99%，且仍在下修（本专栏〈AI越强，Token却越便宜〉）。

按照直觉，token这么便宜，AI帐单应该缩水。现实却相反：推论模型、agent呼叫链等需求乘数，让总用量的成长速度远超单价下滑的速度，帐单不减反增（本专栏〈推论经济学〉）。「在哪里推论、用什么规模推论」，已从架构选项变成经营决策。

若把AI推论的基础设施从当前的资本重心到未来的部署前瞻排列，我们推估大致可分为5层。

最顶层也是目前投资最密集的，是超大规模AI工厂——以GW为单位，服务全球通用推论工作负载。这一层的竞争逻辑是纯粹的规模经济，几个大型云端厂商之间的较量，进入门槛极高，只有少数企业能直接介入的市场。

往下一层是受监管或主权级AI數據中心。欧盟的AI法规、中东的數字主权政策、东南亚各国对數據本地化的立法，都在把特定产业或政府机构推向「必须在受控环境内完成推论」的处境。需求最明确的是国家安全相关机构——推论工作不只不能出境，往往还需要在实体隔离的环境中完成，对硬件安全认证的要求远高于一般企业。金融和医疗等私部门虽然约束程度较低，但面对的本质问题相同。这一层的采购决策往往由法遵、风控或安全主管部门驱动，销售周期和评估标准与其他层截然不同。

企业AI數據中心目前是成长最快的一层。金融业、医疗机构、制造业领导厂商，在评估AI推论的部署位置时，部分选择自建而非公有云，驱动力不只是长期成本，更多是數據不愿外传的现实考量。这一层需要一定规模的IT组织支撑。

对有自建能力的大型企业而言，推论需求愈大，自建的TCO优势就愈明显——每个token的运算成本、能源效率与系统使用率，都成为设计的核心参数，而非事后才考量的营运细节。但没有足够IT资源的中小企业，直接跨入的风险不低。

中小型本地服務器对应有一定技术能力、但不想完全依赖公有云的中小企业或部门级部署。有一个长期被低估的现实：许多企业过去透过NAS等本地储存，累积大量业务數據——检验纪录、作业日志、客户往来文件——因为法遵、成本或帶寬的限制，从未上云，也从未被真正利用。本地推论服務器的出现，让这批沉睡數據第一次有机会被语言模型处理，不需要把數據传出去，也不需要支付庞大的云端费用。这一层真正的门槛不是资本支出，而是IT人力的可得性。

第五层是终端装置。从手机上的智能语音助理、工厂边缘的视觉检测，到需要實時感知与动作决策的自主机器人，这一层的关键是延迟与离线可用性，而非运算规模。机器人在实体空间执移動作，几乎没有等待云端回应的余裕，断线就意味著停摆；这让终端推论从「可选项」变成系统设计的前提。需要大型模型推论或长篇上下文的任务，目前仍难以在这一层完成。但这条限制的边界正在移动。我们曾以封包（packet）的演进为例分析过（本专栏〈鉴往知来：packet vs. token〉）：互聯網早期的运算重心在服務器端，当封包成功进入移動設備，才催生智能手機与长达10年的移動生态系爆发。token往终端装置移动，似乎正在走出类似的路径——使用需求的拉力、模型轻量化的持续推进，以及本地端推论硬件的能力提升，3个条件正在相继具备。近中期更可能的形态是混合并存，而非全面取代；但这一层的成长方向相当确定。

这个层结构能够同时成立，背后有几个技术条件在近两年相继成熟：模型轻量化让前瞻模型得以在更少的硬件上完成推论；开放权重模型的能力持续追近闭源模型，且可以自行部署、不依赖特定厂商界面；法规与地缘政治的压力，则让受监管數據中心这一层的需求有了更稳定的支撑。三者缺一，分层格局就难以成立。

这个趋势不代表顶层的投资退烧——各方数据显示那一层的建设力道仍在持续。各层同步展开，需求规模扩张，而非资源从顶层向下转移。竞争重心过去集中在顶层的大规模服務器与散热解决方案；现在，每一层都有不同的系统规格需求——低功耗推论芯片、针对推论工作负载优化的中密度服務器、安全法遵的系统整合，直到终端装置的边缘推论模塊。能否针对不同层次的客户需求给出有差异的回应，或许正是这波扩张中新机会的所在。

Token帐单之后：AI运算架构的5层重组

徐宏民台灣大學信息工程学系教授

作者其他文章

推荐活动

邦博士快讯

Auden TechDay 2026 「星地融合 ‧ 智联万物 ‧ 共创无限未来」

Token帐单之后：AI运算架构的5层重组

徐宏民 台灣大學信息工程学系教授

作者其他文章

推荐活动

邦博士快讯

Auden TechDay 2026 「星地融合 ‧ 智联万物 ‧ 共创无限未来」

徐宏民台灣大學信息工程学系教授