扩展定律如何推动更有智能又更强大的AI发展

陈俞萍／台北
2025/03/24 03:40
分享

扩展定律描述 AI 系统的效能如何随着训练数据、模型参数或运算资源的增加而提升。NVIDIA

就像是人们普遍理解的自然经验定律一样，例如有上必有下，或者每个动作都有相等和相反的反应，人工智能（AI）领域长期以来都是由单一想法所定义：更多的运算、更多的训练数据和更多的参数，就可以产生更好的AI模型。

然而，AI发展至今，需要三个不同的定律来描述不同方式利用运算资源如何影响模型效能。这些AI扩展定律合在一起，包含预训练扩展（pretraining scaling）、训练后扩展（post-training scaling），以及又称为长思考（long thinking）的测试阶段扩展（test-time scaling），反映出AI领域如何在各种日益复杂的AI用例中运用额外的运算技术演进发展。

近期兴起的测试阶段扩展，也就是在推论阶段应用更多运算来提高准确度，已经实现AI推理模型这类新式的大型语言模型（LLM），以执行多次推论来处理复杂的问题，同时描述解决任务所需的步骤。测试阶段扩展需要用到大量运算资源来支持AI推理，这将进一步推动对加速运算的需求。

什麽是预训练扩展？

预训练扩展是AI发展的原始定律。它证明透过增加训练数据集大小、模型参数数量和运算资源，开发人员可以期望模型智能和准确度会出现可预期的改善。

数据、模型大小、运算这三个要素中的每一个都息息相关。根据本篇研究论文所概述的预训练扩展定律，当大型模型获得更多数据时，模型的整体效能就会提高。为了实现这个目标，开发人员必须扩大运算规模，这就需要强大的加速运算资源来运行那些较大的训练工作负载。

这种预训练扩展原则使得大型模型达到突破性的能力。它还激发了模型架构的重大创新，包括有着数十亿个和上万亿个参数的transformer模型、混合专家模型和新式分散式训练技术的兴起，而这一切都需要大量的运算。

而预训练扩展定律的相关性仍在不断发展，随着人类持续产生愈来愈多的多模态数据，这些文字、影像、音讯、影片和传感器信息的宝藏库将会被用来训练未来强大的AI模型。

什麽是训练后扩展？

预先训练大型基础模型并非人人适用，这需要大量投资、熟练的专家和数据集。然而，一旦组织预先训练好并发布模型，就能让其他人使用其预先训练的模型当成基础，以配合自己的应用，从而降低采用AI的门槛。

这种训练后的流程会推动企业及更广泛的开发人员社群对加速运算的额外累积需求。受欢迎的开源模型可能有着上百个或上千个在多个领域里训练出的衍生模型。

针对各种用例开发衍生模型的生态系，可能需要比预先训练原始基础模型多出约30倍的运算时间。训练后技术可以进一步提升模型的特异性，以及与组织所需用例的相关性。

预训练扩展就像是将AI模型送去学校学习基本技能，而训练后扩展则是增强模型适用于其预期工作的技能。比如一个大型语言模型可以经过训练后扩展来处理情感分析或翻译等任务，或是理解医疗保健或法律等特定领域的术语。

训练后扩展定律假设使用微调、剪枝、量化、蒸馏、强化学习和合成数据增强等技术，可以进一步改善预训练模型在运算效率、准确性或领域特异性方面的效能。

微调（fine-tuning）使用额外的训练数据，针对特定领域和应用量身打造AI模型。这可以使用组织的内部数据集，或是成对的样本模型输入和输出内容来完成。

蒸馏（distillation）需要使用一对AI模型：一个大型复杂的教师模型和一个轻量级的学生模型。在离线蒸馏这个最常见的蒸馏技术中，学生模型学习模仿预先训练的教师模型的输出。

强化学习（reinforcement learning，RL）是一种机器学习技术，它使用奖励模型来训练代理做出符合特定用例的决定。代理的目标是在与环境互动的过程中，随着时间的推移做出累积奖励最大化的决策，例如聊天机器人大型语言模型会受到使用者做出「按赞」反应的正向强化。

这种技术称为基于人类回馈的强化学习（RLHF）。另一种较新的技术是基于AI回馈强化学习（RLAIF），它使用AI模型的回馈来引导学习过程，简化训练后的工作。

最佳解查找采样（Best-of-n sampling）会从语言模型产生多个输出，并根据奖励模型选择奖励分数最高的一个。它通常用来提高AI的输出，而不需要修改模型参数，提供一种使用强化学习进行微调的替代方法。

查找方法会在选择最终输出之前探索一系列潜在的决策路径。这种训练后扩展技术可以反覆改善模型的反应。为了支持训练后扩展，开发人员可以使用合成数据来增强或补充微调数据集。使用AI产生的数据来补充现实世界的数据集，有助于模型改善处理原始训练数据中代表性不足或遗漏的边缘案例的能力。

什麽是测试阶段扩展？

大型语言模型会对输入提示做出快速回应。这个过程非常适合用来获得简单问题的正确答案，但当使用者提出复杂的询问，这个流程可能就没那麽好使用。要回答复杂的问题，大型语言模型必须先对问题进行推理，才能给出答案，而回答复杂的问题是代理型AI工作负载的基本能力。

这跟大多数人的思考方式类似，在被问到二加二的答案时，他们会马上脱口而出，而不需要讲解加法或整数的基本原理。可是万一当场被要求制定一个可以让公司利润成长10%的商业计划时，人们可能会透过各种选项进行推理，并且提供一个多步骤的答案。

测试阶段扩展也称为长思考，发生在推论过程中。传统的AI模型会快速针对使用者的提示产生一次性答案，而使用这项技术的模型则会在推论过程中分配额外的运算工作，让模型在得出最佳答案前先推理出多个可能的回应。

在为开发人员生成复杂的定制化程序码等工作上，这个AI推理过程可能需要几分钟，甚至几小时的时间，而且相较于传统大型语言模型的单次推论，高难度的查询可能需要超过100倍的运算量，因为传统大型语言模型不太可能在第一次尝试时，就能对复杂的问题产生正确的答案。

这种测试阶段运算能力可以让AI模型探索问题的不同解决方案，并将复杂的要求拆解成多个步骤，在许多情况下，在推理过程中向使用者展示其工作。研究发现，当给予AI模型需要多个推理与规划步骤的开放式提示时，测试阶段扩展可以获得更高品质的回应。

测试阶段运算方法有多种方法，包括：思维链（chain-of-thought）提示：把复杂的问题分解成一系列更简单的步骤。多数决抽样：针对同一个提示产生多个回应，然后选择最常出现的答案作为最终输出。查找：探索与评估回覆树状结构里的多个路径。

测试阶段扩展如何进行AI推理

测试阶段运算技术的兴起，让AI有能力对使用者所提出复杂、开放式的查询项目，提供有理有据、有帮助且更加准确的回应。这些能力对于自主代理型AI及实体AI应用所期待的详细、多重推理任务来说至关重要。它们可以为各产业的使用者提供能力强大的助理来加速工作，从而提高效率和生产力。

在医疗保健领域，模型可以使用测试阶段扩展技术来分析大量数据，推断疾病的发展情况，以及根据药物分子的化学结构，预测新疗法可能产生的潜在并发症。或者，它可以梳理临床试验数据库，建议符合个人病况的方案，分享其对不同研究利弊的推理过程。

在零售和供应链物流领域，长思考有助于解决近期营运挑战和长期策略目标所需的复杂决策。推理技术可以同时预测与评估多种情境，协助企业降低风险，并因应在扩充方面的难题。这可以实现更精准的需求预测、简化供应链行程路线，以及做出符合组织永续发展计划的采购决策。

对于全球企业而言，这项技术可应用于草拟详细的商业计划、产生复杂的程序码以对软件进行除错，或是最佳化货车、仓储机器人和无人驾驶出租车的行驶路线。

AI推理模型发展迅速。OpenAI o1-mini和o3-mini、DeepSeek R1以及Google DeepMind的Gemini 2.0 Flash Thinking都是在过去几周推出，预计不久后还会有更多新的模型问世。

这些模型在推理过程中需要使用大量运算，才能对复杂问题进行推理与产生正确答案，这表示企业需要扩充加速运算资源，以提供能够解决复杂问题、编写程序码和规划多步骤的下一代AI推理工具。

关键字

加入已选取到「关键字追踪」什麽是「关键字追踪」