AWS推出五项Amazon SageMaker新功能助力规模化开发应用模型

黎思慧／台北
2023-12-19
分享

亚马逊（Amazon）旗下Amazon Web Services（AWS）于AWS re:Invent全球盛会上宣布推出5项Amazon SageMaker新功能，帮助客户加速建构、训练和部署大型语言模型（LLM）和其他基础模型。

随着模型不断改变各行各业的客户体验，Amazon SageMaker让企业更轻松快速地建构、训练和部署支持各种生成式人工智能（Generative AI）使用场景的机器学习模型。为了善用模型，客户需要进阶的功能来高效管理模型的开发、使用和效能。这也是Falcon 40B和180B、IDEFICS、Jurassic-2、Stable Diffusion以及StarCoder等大多数业界领先的模型都在Amazon SageMaker上训练的原因。

本次宣布的新功能，进一步增强了Amazon SageMaker的模型扩充能力并加速了模型的训练，也透过降低模型部署成本和延迟时间，优化托管机器学习的基础设施的管理。AWS还推出了新的SageMaker Clarify功能，可以让客户在负责任地使用AI的基础上，根据品质参数更轻松地选择正确模型。

为了帮助客户在企业内部应用这些模型，AWS还在Amazon SageMaker Canvas中导入了新的无程序码功能，让客户更快、更容易地使用自然语言指令准备数据。同时，Amazon SageMaker Canvas继续普及模型建构和订制，让客户更轻松地使用模型萃取洞察、进行预测和使用企业自有数据生成内容。这些创新均基于Amazon SageMaker丰富的功能，帮助客户实现规模化的机器学习创新。

可扩充运算能力、海量数据以及机器学习技术的快速进步，促使含有数十亿参数模型的兴起，它们能够执行各种任务，如撰写博客文章、生成图像、解决数学问题、进行对话和根据文档回答问题。如今，成千上万的客户，例如3M、阿斯特捷利康（AstraZeneca）、法拉利（Ferrari）、LG AI Research、瑞安航空（RyanAir）、路透（Reuters）和Vanguard等，每月在Amazon SageMaker进行超过1.5万亿次的推论。

此外，AI21 Labs、Stability AI和Technology Innovation Institute等客户也正借助Amazon SageMaker训练拥有数十亿参数的模型。随着客户从建构针对特定任务的模型，转向支持生成式AI的大型通用模型，客户必须处理大量数据库并设置更复杂的基础设施，同时在不断优化成本和效能。客户还希望能够建构和订制自己的模型，以创造独特的客户体验，展现企业的形象、风格和服务。

自2017年推出以来，Amazon SageMaker已经新增了380多个功能，为客户提供了规模化建构、训练和部署大规模模型所需的一切。

AWS人工智能和机器学习副总裁Bratin Saha表示：「机器学习是近年来影响深远的技术变革之一，所有企业组织都对模型产生了浓厚的兴趣。这也给希望快速建构、训练和部署模型的客户带来了新的挑战。从加速训练、优化托管成本、降低延迟到简化基础模型的评估，再到无程序码模型的建构能力，我们的使命是让各种规模的企业都能使用高品质、高成本效益的机器学习模型。我们再次升级Amazon SageMaker，透过全托管、专门建构的新功能帮助客户在机器学习方面的投资获得最大成效。」

新功能让客户更轻松快速地训练和运作模型，驱动生成式AI的应用

随着生成式AI持续发展，许多新兴应用都仰赖模型。然而，大多数企业为了满足新模型需求而调整基础设施时遇到困难，很难高效地实现规模化的训练和运作。Amazon SageMaker新增了两项全新功能，旨在帮助减轻规模化训练和部署模型的负担。

Amazon SageMaker HyperPod加速基础模型规模化训练：

许多企业希望以较低的成本使用基于GPU和Trainium的运算执行个体来训练自己的模型。然而，数据激增、模型规模扩大以及较长的训练时间，使模型训练复杂程度呈指数级增长，这使客户必须进一步调整流程来应对这些新需求。

通常客户需要将模型训练分配到数百甚至数千个加速器上。之后，在几周或者几个月的时间内同时执行数万亿次数据运算，这是一项耗时且需要专业机器学习知识的工作。与训练特定任务的模型相比，加速器的数量和训练时间都大大增加。因此，很容易出现如单个加速器故障等小错误。这些错误可能会中断整个训练过程，并需要人工辨别、隔离、调整、除错和修复，这都将拖延工作进度。

在基础模型的训练过程中，客户经常需要暂停训练，评估当前模型效能并优化训练程序码。为了不间断地训练模型，开发人员必须不断储存训练进度（通常称为检查点），以便在训练中断后不会遗失进度，并从停止的地方继续训练。这些挑战大大增加了训练模型所需的时间和成本，拖延了生成式AI创新的部署。

Amazon SageMaker HyperPod减轻了建构、优化机器学习基础设施的繁重工作，将模型训练时间缩短了高达40%。Amazon SageMaker HyperPod缺省了Amazon SageMaker的分散式训练库，使客户能够自动将训练工作负载分配到数千个加速器上，以便同时处理工作负载，提高模型效能。

此外，Amazon SageMaker HyperPod透过定期储存检查点确保用户能够不间断地训练模型。当训练过程中发生硬件故障时，Amazon SageMaker HyperPod会自动检测故障、修复或替换有故障的执行个体，并从最后储存的检查点恢复训练，无需客户手动管理这一过程，协助客户在分散式环境中进行数周或数月的训练而无需中断。

Amazon SageMaker Inference有助于降低模型部署成本并缩短延迟时间：

企业在部署模型的过程中，不断寻找优化效能的方法。为了降低部署成本和减少回应延迟，客户使用Amazon SageMaker在新的机器学习基础设施加速器上部署模型，如AWS Inferentia和GPU。然而，有些模型没有充分利用这些执行个体提供的加速器，导致硬件资源使用效率低。有些企业还将多个模型部署到同一个执行个体上，以便更好地利用所有可用的加速器，但这需要复杂的基础设施规划，既耗时又难以管理。

当多个模型共享同一个执行个体时，每个模型都有自己的扩充需求和使用模式，因此很难预测客户何时需要增加或减少执行个体。例如，一个模型用于在特定时间内使用量可能激增的应用程序，而另一个模型可能具有更稳定的使用模式。除了优化成本，客户还希望透过降低延迟来提供理想的用户体验。

由于模型的产出规模从一句话到一整篇文章不等，因此完成推论所需的时间差异很大。如果使用执行个体之间的随机途径，就会难以预测延迟高峰。Amazon SageMaker现在支持新的推论功能，帮助客户降低部署成本和延迟时间。

透过这些新功能，客户可以将多个模型部署到同一个执行个体上，更好地善用底层加速器，平均部署成本可降低50%。客户还可以分别控制每个模型的扩充策略，找到更适应模型的使用模式，同时优化基础设施成本。Amazon SageMaker能够密切监测正在处理推论的执行个体，并根据可用的执行个体智能发送需求，平均降低20%的推论延迟。

新功能能够帮助客户评估模型，并根据使用场景选择最适合的模型

客户在为生成式AI应用程序挑选模型时有很多选择，并希望能快速比较这些模型，根据相关品质和负责任的AI参数（如准确性、公平性和稳健性）找到最适合的选择。然而，当比较执行相同功能（例如文本生成或摘要）或属于同一系列（例如Falcon 40B与Falcon 180B）的模型时，每个模型在各种负责任的AI参数上表现都不相同。

即使是在两个不同数据库上微调相同的模型，效能也存在差异，这将很难确定哪个版本效果更佳。如要开始比较模型，企业必须先花费数天时间订定相关标准，设定评估工具并对每个模型进行评估。尽管客户可以查阅公开可用的模型标准，但通常无法根据代表特定使用场景的提示词来评估模型的效能。此外，这些标准通常难以理解，也不适用于评估品牌形象、相关性和风格。另外，企业还需耗时透过人工分析结果，并在每个新使用场景或微调模型重复此过程。

Amazon SageMaker Clarify可以帮助客户根据所选参数评估、比较和选择适合特定使用场景的最佳模型，以助力企业负责任地使用AI。借助Amazon SageMaker Clarify的新功能，客户可以轻松评估自己的模型，或透过Amazon SageMaker JumpStart选择模型。

在Amazon SageMaker Studio中，客户可以选择针对特定任务进行模型比较，例如问答或内容摘要。然后，客户选择评估参数并上传自己的提示词数据库，或者从内建的公开数据库中进行选择。对于需要复杂人工判断的敏感标准或精确内容，客户可以请内部员工协助，或由SageMaker Ground Truth提供的托管工作人员，使用回馈机制在几分钟内审查并回覆。一旦客户完成设定，Amazon SageMaker Clarify将会进行评估并生成报告，以便客户可以根据效能标准快速评估、比较和选择最佳模型。

Amazon SageMaker Canvas新功能使客户更轻松、更快速地将生成式AI整合到工作流程中

Amazon SageMaker Canvas帮助客户建构机器学习模型并生成预测，而无需编写程序码。这次扩充了Amazon SageMaker Canvas的现有功能，帮助客户在无程序码环境中使用模型来支持各种使用场景。

使用自然语言指令准备数据：

Amazon SageMaker Canvas中的视觉化界面已经让没有机器学习专业知识的人也可以轻松准备数据，但有些客户还希望能以更快、更直观的方式浏览数据库。客户现在可以透过范例快速入门，并在过程中随时提问以简化数据准备工作。客户还可以使用自然语言指令进行复杂的转换，解决常见的数据问题，例如填补栏目中缺失的数值。透过新的无程序码界面，客户可以大大简化在Amazon SageMaker Canvas上处理数据的方式，将准备数据所需的时间从数小时缩短至数分钟。

利用模型进行大规模业务分析：

客户使用Amazon SageMaker Canvas建构机器学习模型，并为各种工作生成预测，包括需求预测、客户流失预测和金融投资组合分析等。在过去，客户已经可透过Amazon SageMaker Canvas使用Amazon Bedrock上的多个模型，包括来自AI21 Labs、Anthropic和亚马逊的模型，以及来自MosaicML、TII和Amazon SageMaker JumpStart的模型。

在相同的无程序码界面，客户现在可以上传数据库并选择模型，Amazon SageMaker Canvas会自动帮助客户建构订制模型，立即生成预测。Amazon SageMaker Canvas还可以显示效能指标，让客户可以使用模型生成预测，并了解基础模型在特定任务上的表现。

Hugging Face是领先的机器学习公司和开放平台，为AI建构提供了开放的基础模型以及打造模型所需的工具。Hugging Face产品负责人Jeff Boudier表示：「Hugging Face一直使用Amazon SageMaker HyperPod打造最新的开放基础模型，如StarCoder、IDEFICS和Zephyr，这些模型已被下载了数百万次。

Amazon SageMaker HyperPod专为高弹性和效能建构的功能使我们的开放科学团队能够专注于创新，并改善基础模型的建构方式，而非管理基础设施。Amazon SageMaker HyperPod能够检测机器学习硬件故障，并快速替换故障的硬件，且不会中断正在进行的模型训练。由于我们的团队需要快速创新，自动化作业恢复功能帮助我们在基础模型训练过程中减少中断情况，让我们在一年内节省了数百小时的训练时间。」

领先的AI客户关系管理（CRM）公司Salesforce，透过数据、AI和CRM，提高了生产力，创造了可信赖的客户体验。Salesforce工程副总裁Bhavesh Doshi表示：「我们对基础模型采用开放系统，而Amazon SageMaker扮演重要的角色，帮助我们扩充架构并加速进入市场。使用新的Amazon SageMaker推论功能，我们能够将所有模型放入单一的Amazon SageMaker端点，该端点可以自动处理所有资源分配和共享运算资源，在提高效能的同时降低了基础模型的部署成本。」

汤森路透是领先的信息供应商，也是全球最值得信赖的新闻机构之一。汤森路透AI、BI（Business Intelligence）与数据平台副总裁Maria Apazoglou表示：「我们的工程师面临的挑战是在尖峰时段有效管理客服需求，以确保聘请合适数量的客服人员来处理激增的电话。对来电量、等待时间、日期等关键指标的数据进行历史分析是一项耗时的工作。我们的团队使用Amazon SageMaker Canvas中新的数据准备和订制功能，对公司数据进行模型训练，进而分析尖峰时段来电量的模式和趋势，这让我们使用自有数据建构机器学习模型变得非常简便。我们期待透过Amazon SageMaker Canvas增加对基础模型的使用，而无需编写任何程序码。」

关键字

机器学习 AI AWS 亚马逊

加入已选取到「关键字追踪」什麽是「关键字追踪」

AWS推出五项Amazon SageMaker新功能 助力规模化开发应用模型

AWS推出五项Amazon SageMaker新功能助力规模化开发应用模型