过去几年,全球大型语言模型(LLM)的早期竞赛几乎都围绕在「评测指标」上。硅谷公司们所引领的这场「AI军备竞赛」,倚赖公开评测基准(benchmark)来展现AI实力:从 MMLU 的跨学科知识、BBH的复杂推论、GSM8K的数学应用、HumanEval的程序设计,到HellaSwag的常识推论、以及Winogrande的语境理解,这些测试成了模型在赛场追逐的技术指标。叙事也极为直接:分数代表能力,分数就是王道。于是,技术优化的路径几乎被锁定——设计更大的模型、注入更多的數據、投入更庞大资本、集中高密度运算资源。
然而,当各家模型在标准化测试中不断刷新纪录,「这些评测是否真能代表真实场域」的疑虑也随之浮现。
为了凸显AI的场域能力,2024年起,Google与 OpenAI 先后尝试让模型挑战国际数学奥林匹亚(IMO)题目,被视为复杂推论的终极考验,但这些挑战,终究无法反映大众日常的使用场景。于是,美国柏克莱大学研究团队打造的Chatbot Arena,透过大规模真人盲测,让使用者的「体感」直接成为裁判,建立一个更贴近市场的「用户价值」新战场。同时,开源社群则以下载次数、社群优化程度作为佐证,强调模型在实际应用中的应用性。
于是,在传统基准分数之外,用户体验与主观感受逐渐成为另一个攸关胜负的评价指标。
对于后进者而言,要在AI竞赛中打破既有格局,必须找到不同的切入维度,创造出非对称的攻防空间。这在中国科技公司身上表现得尤为明显:一方面受制于地缘政治,高端芯片的取得受限;另一方面则处于内部竞争极度激烈的环境。在双重压力下,他们不仅追逐「效能极致」,更积极在「系统层」寻求突破。透过垂直整合,挑战者试图以降低训练与推论的「成本」作为切入点,将AI的价值主张,从单纯比拼模型「智能高度」,拓展到「商业效益」的务实层面。
这意味著,竞争焦点从「谁更聪明」、「谁的体验更好」,进一步扩展为「谁更务实」:除了「能不能做到」、「好不好用」,还得回答「能不能普及」。
AI 竞赛中积极追赶的Google,发挥自身在數據中心的多年经验,提出另一个关键指标,永续(Sustainable)LLM。在最新发表的研究中,Google 团队揭露:当用户发送一个文字提示(prompt)给Gemini模型时,平均需要消耗 0.24 Wh能量、0.03克二氧化碳,以及0.26毫升水。换句话说,1次文字生成的能源成本,大致相当于看电视9秒钟,或饮用5滴水的等效能耗。
需要注意的是,这些数据是以Gemini应用的能耗「中位数」文本提示为基准,并仅限于文字问答场景,尚未涵盖影像或影音等更复杂的生成任务。此外,研究范围也只涉及推论(inference)阶段,而不含更高能耗的训练过程。即便如此,这份报告仍让外界难得窥见营运中大型语言模型背后的「AI 能源帐单」。根据其他研究,目前 LLM 的训练与推论能耗比例约为4 : 6,显示推论已成为整体AI能源足迹中不可忽视的主角。
更有意思的是,透过这个研究,我们也看到大模型推论时,各能耗的占比。结果显示,AI加速器(TPU/GPU)消耗约58%的能量,接著是主机CPU与存儲器约占24%,而數據中心的基础设施负担(包含冷却、电力转换等overhead)与备份/高可用性设备共占约18% 。这样的分布非常值得注意:超过一半的能源用在模型运算本身,然而近乎一成也不能被忽略地用于「系统维持与可靠性保障」的功用。
更让人惊讶的是,Google 报告同时指出,在过去一年,透过硬件(如 TPU、通讯、储存等)与軟件堆叠的优化,AI 推论的能耗1年内降低33倍,碳排放则下降44倍。这显示能效提升的速度,远远超过我们对摩尔定律的想像。显然在系统层级「Energy + Intelligence」共同考虑下,存在非常大的发挥空间。
能源不仅是珍贵资源,更界定AI智能的边界,也迫切需要永续洁净能源的支持:因为「净零碳排」(Net Zero)要求。在这方面,Google 已逐步展开布局:在碳会计的Scope 2范畴(购买电力的间接排放)中,近年持续加码全球各地的再生能源采购,包括太阳能与风能,主动透过市场签订长期的洁净能源合约,确保數據中心与业务能获得稳定的低碳电力。同时,Google也尝试将數據中心转换为绿能资产,并借由参与电网的「需量反应」(demand response)服务,于尖峰时段调整用电量,提升电网稳定。
可以预见,随著大型语言模型进入「效率优化」的新阶段,系统层级的调校将比单纯模型演算法更为关键。Google 报告中已开始纳入Scope 1、Scope 2与Scope 3的碳排放计算,而Scope 3更直接牵涉到供应链:从芯片、服務器、网通零组件到各类供应商的碳排责任,最后都会加总进国际云端与AI营运商的ESG帐本。如果国际CSP大厂、前瞻AI模型公司加速要求供应链提供ESG指标,我们在地的ICT供应商,是否已经准备好?这意味著ESG不再只是合规清单,而是全球市场透明度与竞争力的核心要求。
对臺湾ICT产业而言,大语言的永续指标至少带来3个启示:
第一,效能不再是唯一圭臬,效益才是。芯片与服務器不只要快,更要省,否则难以在全球 AI 供应链中站稳脚步。
第二,Net Zero正在成为产品竞争指标,能源效率与碳排揭露将成为跨国合作的必要条件。
第三,治理力就是竞争力——能否把算力、能耗与永续整合进企业叙事,将决定企业在全球舞臺的份量。
AI的新指标已经浮现:从技术到商业,再到责任与环境(能源)成本,AI竞赛的下半场将不只是「谁更聪明」,而是「谁能在智能与能源之间找到平衡」。对产业而言,同时考量「Energy + Intelligence」,是产品策略与产业定位的新常态。