AMD IT运用Azure HPC满足对容量、扩充及创新无止境需求
- 林稼弘/台北讯
身为半导体、电脑处理器及相关技术的领导业者,AMD 有责任为客户提供服务,与产业保持同步,并协助制定服务器、电脑及嵌入式系统的运作标准。为了维持这项执行方式,AMD 的 IT 团队使用 Microsoft Azure 高效能运算(HPC)、HBv3 虚拟机器及其他 Azure 资源,建构可扩充的容量并最佳化企业的云端功能,加快上市时间并消除数周甚至数个月的延迟。
AMD IT 部门资深主管Rajiv Malhotra表示,我们藉由Azure HPC快速因应运算需求的变化,这对我们的客户产生重大影响,因为我们可以向他们展示,当需求变化时,我们将如何满足需求。AMD Azure HPC video
走在客户前端的创新者
AMD 对更多运算资源的需求永无止境。无论是开发新的主机板芯片组、先进的微处理器或功能更强大的绘图处理器,身为半导体技术的全球领导业者之一,AMD 在寻求持续创新的过程中,不断突破其云端和内部部署基础设施的限制。
不同于许多传统 IT 部门,AMD IT 扮演独特的角色,亦即担任 AMD 新产品的第一个客户 。此部门会将新产品部署至生产环境,并与 AMD 工程团队密切合作以测试和改善每个产品,以协助确保成功推入商业和消费者市场。
AMD的CAD 基础设施和物理设计部门研究员 Philip Steinke 表示,我们持续在产品计划中增加新产品。产品的复杂性也在不断升高,以提供客户所需要的所有功能。
当 AMD IT 需要满足运算资源需求并扩大规模以完成工作时,会利用云端技术以获得弹性并缩短启动时间。Steinke 表示,每踏入一个新的产品时代,我们都需要提高运算能力以实现设计,确保产品能如预期般运作,并让产品进入制造阶段。
遇到需求高峰和紧急需求时
为了维持产品设计和验证以最高效率运作并承接新专案,AMD IT 体认到必须提高其运算能力并加快工作时间。该团队需要更多容量,以扩充为了高效能运算 (HPC) 所配置的虚拟机器 (VM),借此满足激增的需求,并在不需要机器时能缩减规模。
AMD IT 部门资深主管 Rajiv Malhotra 表示:「无论我们执行多少作业,都会有大约 20% 至 30% 的相同作业量正等待执行。实际上,我们的使用率已达 100%,而且没有太多的内部部署运作弹性。如此缺乏弹性会导致损失机会成本。」
为扩充其功能、为其传统的内部部署基础架构带来弹性、增加对运算能力的存取,以及缩减采购时间,AMD IT 决定采用Azure HBv3 虚拟机器上的Microsoft Azure 高效能运算 (HPC) 资源,执行其电子设计自动化(EDA)工作负载。
透过为 HPC 配置的 Azure HBv3 VM 充分运用容量
透过针对 Azure HPC 进行最佳化配置的 HBv3 虚拟机器,并采用 AMD 自有的先进 EPYC 处理器,AMD IT 现在拥有可靠的节点至节点互连性,并可为 EDA 环境提供可快速扩充的高核心容量和卓越效能。HPC 适用于内部部署和云端基础架构,因此 AMD IT 可根据需要在其混合式环境中快速轻松地建立突增容量。该公司的 IT 主管认为这种适应能力水准是保持容量和可靠性的关键。
Malhotra 表示,在使用 Azure 之前,当需求激增时,我们必须决定最不想要牺牲哪个专案。有了Azure HPC后,我们可快速因应运算需求的变化,这大大影响了我们的客户,因为我们可以向客户展示,当需求变化时能如何满足需求。
在为期一年的标准专案周期中,总是会出现意料之外的任务,而且可能会有多个专案相互重叠。AMD IT拥有Azure的弹性,可在任何特定时间策略性规划所需的机器和程序。因此,IT的运作对公司获利带来正面影响。
Steinke 表示,我们将 Azure HPC 用于各种工作负载类型,包括在非常大的机器上,需要有大量 RAM 的大型系统工作负载执行,但这些工作负载可能只需执行 8 小时,而且每 24 小时只执行一次。现在我们可在有需要时获取资源,而且只需为我们使用的容量付费,而不必让机器闲置。
加快设计周期并缩短上市时间
AMD IT 把握机会自订其技术堆叠,进而缩短完成解决方案的时间,同时以动态 AMD EPYC CPU-powered HBv3 VM 建构强大的工程 Unix 环境,使用Azure HPC Cache 和Azure NetApp Files将其工作负载引入云端。HPC Cache在 Azure 和 AMD 的本地部署储存装置之间划分运算容量以协助保持 EDA 作业的运作,进而为使用者提供更快的反应时间。同样的,IT 团队使用 Azure NetApp Files ,为 Azure 所产生并由快速读写存取的多个作业所使用的数据,提供高端储存装置。这有助于防止 CPU 核心在等待工作时卡住。
Steinke 表示,我们立下了基准,我们想要在云端完成的工作,至少要与在本地部署数据中心使用高效能 EPYC 处理器核心和档案服务器,达到相同程度的成果。采用 Azure 让我们能达到并超越基准效能。AMD IT 藉由结合上述 Azure 资源,建构了对 VM 和弹性运算能力的存取,因此能更快完成产品设计周期并加快上市时间。
人工智能和机器学习提升灵活性和可视性
自从将 Azure 整合至生产环境之后,AMD IT 大幅获益于更高的弹性和更广泛的资源,并运用这些资源进行规划和执行作业。执行报告每天需要同时使用多达 80 台完整的服务器,由于会对有限的资源带来额外压力,这项任务的速度可能会大幅减缓。
Steinke 解释,在我们引进 Azure HPC 之前,团队可能必须错开时段执行报告,一天执行 40 次,改天再执行 40 次,而且每两天才能看到所有详细内容。利用 Azure HPC 提供的额外资源,团队可执行所有报告并可每天报告。
AMD IT 希望透过指标和分析方面的进步,专注于从云端获得更多价值,以协助确保一致且强大的专案执行。Malhotra 表示:「我们希望使用部署于 Azure HPC 的人工智能和机器学习,为我们提供独特的见解,包括工作流程如何消耗运算资源、工作流程如何执行,以及如何获得更深入的知识和预测,以更快速进行整合。」
AMD IT 持续达成并超越其效能目标,同时进一步发展与 Azure 的合作关系。Steinke 表示,我认为我们的 Azure HPC 成功案例,证明了它是经过完整测试和验证的解决方案。
AMD公司CAD 基础设施和物理设计部门研究员Philip Steinke表示,我们立下标准,在云端完成的工作时,至少要与在本地部署数据中心使用高效能 EPYC 处理器核心和档案服务器,达到相同程度的成果。采用 Azure 让我们能达到并超越基准效能。
AMD公司IT部门资深主管Rajiv Malhotra表示,我们希望使用部署于 Azure HPC 的人工智能和机器学习,为我们提供独特的见解,包括工作流程如何消耗运算资源、工作流程如何执行,以及如何获得更深入的知识和预测,以更快速进行整合。
高效能运算(HPC)是一组完整的运算、网络和储存体资源,并与HPC应用程序的工作负载协调流程服务整合。有了专门建立的HPC基础结构、解决方案和最佳化的应用程序服务,Azure提供比内部部署选项更具竞争力的价格/效能,并具备额外的高效能运算优势。此外,Azure还包含新一代的机器学习工具,可推动更聪明的模拟,让制定决策更具智能。进一步透过最新微软助力半导体产业升级白皮书了解Azure如何偕同AMD与Intel针对EDA/CAE不同的模拟软件与情境提供的最佳实践。详请参考Azure for the Semiconductor Industry。