AWS推出6项Amazon SageMaker新功能 智能应用 影音
TERADYNE
ADI

AWS推出6项Amazon SageMaker新功能

  • 黎思慧台北

AWS在2021 re:Invent年度盛会上,宣布为引领业界的机器学习服务Amazon SageMaker推出ˊˊ6项新功能,让机器学习更容易上手且更具成本效益。此次发布的强大新功能包括:无需编写程序码即可进行准确的机器学习预测、更精准的数据标记服务、可用于跨领域合作的Amazon SageMaker Studio通用型笔记本体验、让编码更高效的机器学习模型训练编译器、为机器学习推论自动推荐运算执行个体,以及用于机器学习推论的无服务器运算。

在云端几乎无限的产能、爆炸性成长的数据量以及开发人员使用的工具快速进步等多重因素推动下,机器学习已成为各产业的主流。AWS多年来一直致力于降低机器学习的使用门槛,让更多的客户运用机器学习技术。

Amazon SageMaker是AWS成长速度最快的服务之一,包括阿斯特捷利康(AstraZeneca)、Aurora、Capital One、Cerner、Discovery、现代汽车(Hyundai)、Intuit、路透(Reuters)社、Tyson和Vanguard等全球数万家客户,正使用Amazon SageMaker训练各种规模的机器学习模型,有些模型甚至包含数十亿个参数、每月进行数千亿次预测。

随着客户在Amazon SageMaker上不断扩展其机器学习模型训练和推论,AWS也持续扩展服务产能,仅在过去一年就推出60多项Amazon SageMaker的新功能。

此次发布的诸多新功能让Amazon SageMaker更加强大,能让用户更轻松地准备和蒐集机器学习数据、更快地训练模型、优化推论所需的运算类型和数量,以及为更广泛的受众拓展机器学习。

Amazon SageMaker Canvas无程序码机器学习预测

Amazon SageMaker Canvas为业务分析师(支持财务、行销、营运和人力资源团队的人员)提供视觉化界面,他们无需任何机器学习经验,也不必编写程序码,即可自行建置更准确的机器学习模型以进行预测。

愈来愈多公司希望透过机器学习重塑业务和顾客体验,这需要更多来自不同业务领域的员工使用先进的机器学习技术。然而,机器学习通常需要大量专业知识,并且通常需要多年的正规教育或密集培训以习得该技能,而这些课程的难度高且持续不断变化。

Amazon SageMaker Canvas解决了这项挑战,它透过提供视觉化、点击式的使用者界面,让业务分析师可以轻松地产出预测。客户只要将Amazon SageMaker Canvas连接到他们的数据仓储(如Amazon Redshift、Amazon S3、Snowflake、本地数据仓储、本地档案等),就能运用Amazon SageMaker Canvas的视觉化工具直观地准备和分析数据。

接着,Amazon SageMaker Canvas会使用自动机器学习建置和训练机器学习模型,客户无需编写任何程序码。为确保模型的准确度和有效性,业务分析师也可以在Amazon SageMaker Canvas的控制台中查看和评估模型。Amazon SageMaker Canvas还支持客户将模型汇出到Amazon SageMaker Studio,与数据科学家共享并进一步验证和改善模型。

Amazon SageMaker Ground Truth Plus专业数据标记

Amazon SageMaker Ground Truth Plus是一项完全托管的数据标记服务,以内建数据标记工作流程的专家团队,在无需编写程序码的状况下,以更低成本快速交付高品质的训练数据集来训练机器学习模型。

为了训练更准确的模型并规模化机器学习部署,客户需要的正确标记数据集愈来愈大。然而,要生成大型数据集可能需要数周到数年的时间,并且通常需要公司聘雇员工并打造工作流程来管理标记数据的过程。

2018年,AWS推出了Amazon SageMaker Ground Truth,透过使用来自Amazon Mechanical Turk、第三方供应商或以自有团队的人工数据标记方式,帮助客户更轻松地生成标记数据。

Amazon SageMaker Ground Truth Plus进一步拓展这项功能,透过专业团队为客户提供高度准确的数据标记。这些专业团队不但拥有特定领域和产业专业知识,同时具有可满足客户对数据安全、隐私与法遵等要求的专业技能。

Amazon SageMaker Ground Truth Plus具有多步骤标记工作流程功能,可缩短标记数据集所需的时间,并降低采购高品质标记数据的成本,该功能包括机器学习模型预先标记、检测人工标记的错误和低品质标记,以及辅助标记功能(例如3D立体捕捉、去除2D中的失真图像、影片标记中的预测和自动分割工具)。客户只需先将Amazon SageMaker Ground Truth Plus导向他们在Amazon Simple Storage Service(Amazon S3)中的数据来源,并提供特定的标记需求(例如,医学专家应如何标记肺部放射影像中的异常情况的指示)。

Amazon SageMaker Ground Truth Plus随后打造数据标记工作流程并提供仪表板,让客户能追踪数据标记进度、检查已完成标记的样本品质,并为生成高品质数据提供回馈;该功能让客户可以更快地建置、训练和部署高准确度的机器学习模型。

Amazon SageMaker Studio通用型笔记本

Amazon SageMaker Studio的通用型笔记本(业界首个完整的机器学习整合式开发环境)提供一个统一的整合环境来执行数据工程、数据分析和机器学习。如今,来自不同数据领域的团队希望使用一系列涵盖数据工程、数据分析和机器学习的工作流程展开合作。

这些领域的从业人员通常来自数据工程、数据分析和数据科学等不同领域,他们希望无需切换数据工具,就能跨足各种工作流程。而当客户准备整合数据分析和机器学习的数据时,通常需要处理多种工具和笔记本,这个过程繁琐、耗时且容易出错。

Amazon SageMaker Studio现支持客户在一个通用型笔记本中,为实现多种目的而进行的对话模式存取、转换和分析各种数据。

Amazon SageMaker Studio与在Amazon EMR丛集上执行的Spark、Hive和Presto,以及在Amazon S3上执行的数据湖皆已整合,客户无需切换服务即可使用Amazon SageMaker Studio存取和操作通用型笔记本中的数据。

客户除了可以使用喜欢的架构(例如TensorFlow、PyTorch或MXNet)开发机器学习模型,并在Amazon SageMaker Studio中建置、训练和部署机器学习模型外;客户无需离开Amazon SageMaker Studio通用型笔记本,就能一站式浏览和查询数据来源、探索中继数据和纲要,并处理数据分析或机器学习工作流程相关的工作负载。

适用于机器学习模型的Amazon SageMaker Training Compiler

Amazon SageMaker Training Compiler是一种新的机器学习模型编译器,可自动优化编码提高运算资源的使用效率,并缩短训练模型时间多达50%。先进的深度学习模型通常是庞大而复杂的,训练单一模型可能耗费数千小时的GPU运算时间,为此它们需要专门的运算执行个体来加速训练。

为了进一步缩短训练时间,数据科学家会尝试增加训练数据或调整超参数(控制机器学习训练过程的变量),找到效能最佳且资源消耗最少的模型版本。

这项工作的技术复杂度导致数据科学家没有时间优化在GPU上执行训练模型所需的架构。Amazon SageMaker Training Compiler与Amazon SageMaker中的TensorFlow和PyTorch版本整合,这些版本经过优化可在云端更高效地执行,因此数据科学家可以使用他们喜欢的架构,更有效率地使用GPU训练机器学习模型。只需点击一下,Amazon SageMaker Training Compiler就会自动优化并编译训练好的模型,提高训练执行速度多达50%。

Amazon SageMaker Inference Recommender自动选择执行个体

Amazon SageMaker Inference Recommender帮助客户自动选择最佳的运算执行个体和配置(例如执行个体数量、容器参数和模型优化),执行其特定的机器学习模型推论。为常用于处理自然语言或电脑视觉的大型机器学习模型选择具最佳性价比的运算执行个体,是一个复杂的反覆运算过程,可能需要数周的实验时间。

Amazon SageMaker Inference Recommender消弭了执行模型应选择哪种执行个体的不确定性和复杂度,透过自动推荐适合的运算执行个体配置,可将部署时间从数周缩短至数小时。

数据科学家使用Amazon SageMaker Inference Recommender可将模型部署到推荐的运算执行个体上,或者使用该服务在一系列特定的运算执行个体上执行效能基准测试模拟。客户可以在Amazon SageMaker Studio中查看基准测试结果,并评估不同配置在延迟、传输量、成本、运算和存储器等方面的利弊。

适用于机器学习模型的 Amazon SageMaker Serverless Inference

使用Amazon SageMaker Serverless Inference,客户仅需为生产中部署的机器学习模型推论按使用量付费。客户使用机器学习时希望能优化成本,这对具有间歇性流量模式和长时间空闲的应用尤其重要。

诸如基于消费者购买的个人化推荐、接听来电的聊天机器人以及基于实时交易的需求预测等应用,可能会受天气状况、促销的产品或节日与假日等外部影响而出现用量高低峰。

为机器学习推论提供合适的运算容量是一项艰难且需要权衡多方面因素的工作。客户有时为满足峰值需求而过度配置容量,虽然实现一致的效能,但在没有流量时会浪费成本。

有时,客户为控制成本而未部署足够的运算容量,在条件变化时却无法提供足够的产能来执行推论。为了适应不断变化的条件,一些客户尝试动态地手动调整运算资源,这是繁琐且耗费精力的工作。

用于机器学习的Amazon SageMaker Serverless Inference会根据推论请求的数量自动预先设定、扩展和关闭运算容量。当客户将机器学习模型部署到生产中,只需在Amazon SageMaker中选择无服务器部署选项,Amazon SageMaker Serverless Inference就会管理运算资源并提供所需的精确运算量。透过Amazon SageMaker Serverless Inference,客户无需管理底层基础设施,且只需为每个请求使用的产能和处理的数据量付费。

AWS机器学习副总裁Bratin Saha表示:「各个产业和各种规模的客户都积极借助Amazon SageMaker扩大机器学习的使用范围,机器学习已经成为很多企业营运的核心,帮助客户发明新产品、提供创新的服务和体验。我们很高兴为更多客户拓展引领业界的机器学习服务,帮助更多企业推动业务创新,解决具挑战性的问题。这些Amazon SageMaker的新功能将触及更广泛的客户,同时为现有客户提供额外的功能,帮助他们在运用机器学习的过程中,更轻松地将数据转化为有价值的洞察,加快部署速度,提升效能并节省成本。」