AWS宣布全新营运服务Amazon DevOps Guru 智能应用 影音
AIEXPO2024
litepoint

AWS宣布全新营运服务Amazon DevOps Guru

  • 黎思慧台北

日前在Amazon Web Services(AWS)举办的年度盛会—AWS re:Invent上,AWS宣布完全托管的营运服务Amazon DevOps Guru。利用机器学习协助开发人员透过自动化检测操作问题和建议补救措施来提高应用程序可用性。

Amazon DevOps Guru机器学习技术应用了Amazon.com和AWS多年的营运数据,透过自动收集和分析应用程序指标、日志、事件和追踪等数据,识别偏离正常的程序运作模式(例如,运算能力配置不足、数据库I/O过度使用、存储器漏失memory leak等)。

当Amazon DevOps Guru识别出潜在风险如延迟、错误率和资源限制增加时导致应用程序异常服务中断,向开发人员发出问题详细信息(涉及的资源、问题时间表和相关事件等),并透过Amazon Simple Notification Service(Amazon SNS)以及Atlassian Opsgenie和PagerDuty等合作夥伴整合服务,协助开发人员快速了解问题的潜在影响和可能原因,并提出具体的修复建议。

开发人员可以使用Amazon DevOps Guru的建议来减少问题修复时间,无需手动设置或机器学习专业知识即可提高应用程序的可用性和可靠性。Amazon DevOps Guru不用预付费用或预先承诺,客户只需为Amazon DevOps Guru分析的数据付费。

Amazon DevOps Guru的机器学习模型采用了AWS过去20多年为Amazon.com建构、扩展和维护高可用应用程序的营运专业知识。这使Amazon DevOps Guru能够自动检测营运故障(如警报漏失或配置错误、资源耗尽的早期警告,可能导致停机的配置更改等),提供有关资源和相关事件的背景,并建议补救措施,而无需开发人员具备任何机器学习经验。

开发人员只需在Amazon DevOps Guru控制台简单操作,即可自动提取和分析所有应用程序的历史资源和延迟、错误率、请求率等基础架构指标,以建立操作基准线。Amazon DevOps Guru就可透过预先训练的机器学习模型识别与既定基准线的偏差。

当Amazon DevOps Guru分析系统和应用程序数据自动检测异常时,能将这些数据产生营运洞察包括异常指标、随着时间的推移对应用程序列为视觉化、以及相关补救措施的建议。

Amazon DevOps Guru还将相关的应用程序和基础架构指标做关联(Web应用程序延迟峰值、磁碟空间用尽、错误的程序码部署、存储器漏失等),以减少无效警报并帮助用户关注高严重性问题。客户可以透过查看更改配置的历史纪录、部署事件以及系统和使用者活动,在Amazon DevOps Guru控制台中产生需要优先注意的潜在操作问题事件列表。

为了协助客户快速解决问题,Amazon DevOps Guru提供智能的补救建议,并与AWS Systems Manager整合执行手册(runbook)和协作工具,使客户能够更有效地维护应用程序并管理其部署的基础架构。Amazon DevOps Guru与Amazon CodeGuru(机器学习支持的开发人员工具,可提供智能建议以提高程序码品质并识别应用程序中最昂贵的程序码行)一起,使客户可以透过自动化的机器学习针对其维运数据,帮助开发人员轻松提高应用程序的可用性和可靠性。

负责亚马逊机器学习的AWS副总裁Swami Sivasubramanian表示:「客户希望AWS运用专业知识持续提供新服务以增进应用程序可用性,同时学习Amazon.com的多年营运经验。藉助Amazon DevOps Guru,我们透过AWS过往的经验建立专门的机器学习模型,协助客户检测、排除故障并预防操作问题,在出现问题时提供智能化建议。使客户立即受益于营运Amazon.com中学到的最佳操作实践,节省配置和管理多个监测系统上所花费的时间和精力。」