AWS推出Amazon S3新功能 实现更快的数据湖分析及简化数据探索和洞察 智能应用 影音
DTAPP
Event

AWS推出Amazon S3新功能 实现更快的数据湖分析及简化数据探索和洞察

  • 陈杰台北

亚马逊(Amazon)旗下Amazon Web Services(AWS)在2024年re:Invent全球大会上,宣布云端可大规模扩展的物件存储服务Amazon Simple Storage Service(Amazon S3)推出新功能,使Amazon S3成为首个全受管支持Apache Iceberg的云端物件存储,进一步提升数据分析速度,并以最简单的方式存储和管理任何规模的表格数据。新功能还包括自动生成可查询的中继数据,简化数据探索与理解,助力客户充分挖掘Amazon S3中的数据价值。

Amazon S3 Tables是首个内建支持Apache Iceberg表格的云端物件存储服务,推出新型存储贮体,以Iceberg表格的形式优化存储和表格数据查询,查询速度最高可提升3倍,每秒交易处理量(TPS)可提高10倍,并自动化表格维护和分析工作负载。

Amazon S3 Metadata自动撷取可查询的物件中继数据以及使用物件标签的定制化中继数据,并将结果存储于Amazon S3 Tables中,以加速数据湖分析,实现近乎实时的数据探索。

AWS存储副总裁暨杰出工程师Andy Warfield表示:「Amazon S3作为领先的物件存储服务,存储了超过400万亿个物件,成为数百万客户的选择。我们致力于不断创新,以前所未有的规模消除处理数据的复杂性。随着表格数据快速增长,众多客户希望实现跨表格查询并提升查询效能,更好地理解和组织大量数据,以便轻松找到需要的信息。Amazon S3 Tables和Amazon S3 Metadata消除了在物件上组织和运作表格以及中继数据存储的复杂性,使客户能够专注于数据建构。」

Amazon S3 Tables和Amazon S3 Metadata现已与Apache Iceberg表格兼容,客户可以使用AWS分析服务以及开源工具,包括交互式查询服务Amazon Athena、云端原生无服务器BI服务Amazon QuickSight以及Apache Spark轻松查询数据。

Amazon S3 Table:以简单快速的方式执行Amazon S3中的Apache Iceberg表格分析

如今,许多客户都以表格来组织用于分析的数据,这些数据通常存储在Apache Parquet中,这是一种优化数据查询的档案格式,而Parquet已成为Amazon S3中增长速度最快的数据类型之一。客户希望能查询这些不断增长的表格数据集,通常会使用开放表格格式(open table formats;OTF),一种以表格存储数据的开源标准,有助于更有效地管理、更新和追踪大量数据的变化。

随着客户使用Iceberg处理PB级至EB级数据的数十亿个档案,以Iceberg管理Parquet文件已成为最流行的OTF。然而,随着客户规模扩大,管理Iceberg变得极具挑战,往往需要专业团队来建构和维护系统,进行表格维护、数据压缩以及存取权限管理。这些外部系统成本高昂且复杂,还需要专业的团队来维护,占用了企业许多宝贵资源。

Amazon S3 Tables专为管理数据湖中的Apache Iceberg表格建构。Amazon S3 Tables专门针对分析工作负载进行优化,与通用的Amazon S3存储贮体相比,提供高达3倍的查询效能和10倍的每秒交易处理量。Amazon S3 Tables能自动管理表格维护任务,包括为了更好的查询效能进行压缩,以及快照管理,即使客户的数据湖不断扩大和发展,也能持续优化查询效能和存储成本。

客户仅需建立一个表格存储贮体,即可使用Amazon S3 Tables优化存储和查询全受管的Iceberg表格中的数据。借助Amazon S3 Tables,客户将受益于Iceberg的多项功能,如数据列层级交易处理、透过时间旅行功能查询快照、模式演进(schema evolution)等。此外,Amazon S3 Tables还提供表格层级的存取控制,让客户能精准定义数据存取权限。

Genesys是AI驱动的体验编排服务的全球领导者,正计划使用Amazon S3建构数据湖。借助Amazon S3 Tables支持的受管Iceberg,Genesys期望为多元的数据分析需求建构一个实体化检视层(materialized view layer)。Amazon S3 Tables内建支持Iceberg表格,将大幅简化复杂的数据工作流程,透过自动执行关键维护任务,如表格压缩、快照管理以及未引用档案清理等。

Genesys希望能从Iceberg兼容的分析工具中获得效能提升和广泛支持,这些工具可直接从Amazon S3中读写Iceberg表格。Amazon S3 Tables将成为Genesys未来数据策略的基石,帮助Genesys提供更快、更弹性、更可靠的数据洞察,以支持AI驱动的客户和员工体验解决方案。

Amazon S3中继数据:更轻松、快速地探索和理解Amazon S3中的数据

随着越来越多客户将Amazon S3作为中央数据存储库,数据量与数据种类以指数成长。作为理解和组织海量数据的方式,中继数据变得越来越重要,让客户能找到所需的确切物件。为了应对这个挑战,许多客户不得不建构并维护复杂的中继数据撷取与存储系统,来深化他们对数据的认知。

然而,这些中继数据系统不但成本高昂、耗时,而且资源密集,通常需要数据工程师在中继数据流经处理管道时,手动追踪和更新中继数据;同时,还需要数据分析师手动检查海量的物件存储,以找到用于分析、人工智能(AI)、机器学习(ML)数据处理工作流程所需的特定数据。

Amazon S3 Metadata能够近乎实时地自动生成可查询的物件中继数据,进而加速数据探索,并提升数据理解,帮助客户减轻建构和维护复杂中继数据系统的负担。借助Amazon S3 Metadata,客户可以查询、探索并使用数据,以支持业务分析、实时推论应用等用途。Amazon S3 Metadata能自动生成物件中继数据,包括系统定义的详情,如物件的大小和来源,并可透过新的Amazon S3 Tables进行查询。

随着物件增加或删除,Amazon S3 Metadata会实时更新Amazon S3 Tables中的物件中继数据,确保客户能检视最新的数据。客户还可以使用物件标签定制化中继数据,为物件加注特定的业务信息,如产品SKU、交易ID、内容评分或客户的详细信息。客户也可以透过简单的SQL查询轻松查找中继数据,快速寻找和准备数据,以支持业务分析、实时推论应用、基础模型微调、检索增强生成(RAG)、整合数据仓储与分析工作流程,以及执行指定的存储优化任务。

各种规模的企业都将受益于Amazon S3 Metadata的数据探索和理解功能。领先的生物科技公司罗氏(Roche),预计借助Amazon S3 Metadata加速他们的未来生成式AI计划。随着罗氏开发进阶大型语言模型(LLM)应用程序,如复杂的内部聊天机器人,罗氏预期用于检索增强生成的非结构化数据量将以指数成长。

Amazon S3 Metadata将简化可扩展中继数据系统的建构,自动为汇入的新数据生成并更新中继数据。罗氏期望透过定制化的Lambda函数撷取复杂的、特定业务的中继数据,并在简单、可扩展且无服务器的数据整合服务AWS Glue综合目录中,将这些数据与Amazon S3 Metadata无缝整合。这将使企业变得更有效率,并快速识别可用于前沿AI应用程序的相关数据集,让罗氏聚焦于个人化医疗服务的突破性创新。

Cambridge Mobile Telematics(CMT)是全球最大的线上信息处理服务供应商。CMT从设备收集传感器数据,并使用上下文数据进行增强,进而建立车辆与驾驶员行为统一的检视图,供汽车保险公司、汽车制造商、商业交通服务公司以及公共部门用于风险评估、安全、理赔和驾驶员改善计划。

CMT存储并分析来自全球数百万物联网设备的多种PB级数据,随着公司规模扩大,要定位特定数据来提出新洞察和开发新模型,变得越来越具挑战性。借助Amazon S3 Metadata(包括系统中继数据和定制化中继数据),CMT能查询PB级中继数据,使寻找相关数据变得简单且经济高效。

Amazon S3 Tables现已正式可用,Amazon S3 Metadata现已推出预览版,Amazon S3 Tables与AWS Glue Data Catalog整合现已可供预览。客户可使用AWS的分析服务,如Amazon Athena、快速简单、经济高效的PB级云端数据仓储Amazon Redshift、云端大数据平台Amazon Elastic MapReduce(Amazon EMR)和Amazon QuickSight,对Amazon S3 Metadata表格等数据进行查询和视觉化。

关键字