ARM推动边缘AI创新加速生成式AI在终端装置实现

李佳玲／台北
2024/06/18 03:57
更新时间：2024/06/18 17:14
分享

更新时间：2024/06/18 17:14

ARM Cortex核心具备绝佳灵活性，可满足多样化的AI应用需求。ARM

随着全球掀起生成式AI热潮，如何推动此技术在各种终端装置的实现，已成为业界的关注焦点，以期能打造更丰富的创新应用，带动庞大商机。对此，ARM日前推出新一代Ethos-U85 NPU，透过显着的效能提升，进一步推升了MPU/MCU的AI算力，不仅加速推进边缘AI的发展，更有助于带动生成式AI在终端装置的普及应用。

边缘AI持续进展 ARM提供完整方案

Ethos NPU可为Cortex-M核心带来显着的AI效能提升。ARM

统一的软件开发：最快速达到终端AI的途径。ARM

在Cortex-M与Ethos-U上的机器学习工作负载运行流程。ARM

ARM亚太区IoT市场资深经理黄晏祥表示，边缘运算持续演进，从嵌入式系统、加入联网功能成为物联网，到最近导入AI成为AIoT，已带动产业的全新变革。随着市场快速发展，应用场景也日趋多元，包含智能零售、智能工业、以及智能家庭等，AI正开创出更多商机。

「以零售市场为例，过去是用人力操作的POS机，现在为节省人力，已升级为自助结帐机，未来更将发展至无人商店，把人力降至最低，包括商店管理、库存补货等都可透过AI来执行，甚至能还以生成式AI来实现消费者与虚拟店员的互动，由此我们可看到生成式AI在边缘运算场景上的需求。」

由于边缘AI装置的应用多元，对算力也有不同需求，ARM为兼顾效能与扩展性，已建构完备解决方案。针对Cortex-A系列核心的MPU市场，在ARMv9架构中，除了结合Neon、SVE2、SME等指令集扩展，支持音/视讯编解码加速，以及矢量和矩阵运算，以提升处理器核心效能之外，还能再整合Ethos AI加速器，进一步实现最佳的边缘AI效能。而在MCU方面，Cortex-M核心则是透过Helium矢量运算指令集以及结合Ethos NPU来实现的。

黄晏祥强调，为推动人工智能的发展，ARM聚焦于硬件的创新与参考设计、标准和软件、以及生态系统三个领域，同时推动AI合作夥伴计划，藉由共同合作和创新解决方案，以简化各领域的AI部署。

全新推出Ethos-U85 支持Transformer架构

为进一步提升AI算力，ARM日前发布了最新的Ethos-U85 NPU，可把AI带到更广泛的边缘装置。

黄晏祥表示，Ethos-U85最重要的特性之一是支持Transformer架构，这是目前开发生成式AI最普遍采用的架构，因此能协助业者更快地实现生成式AI落地终端装置的目标。此外，不管是Cortex-A或Cortex-M，Ethos-U85均支持，又扩大了它的应用范围。

在效能方面，与上一代产品相比，Ethos-U85效能提升四倍，功耗效率提高20%，同时，其MAC单元可从 128个扩展到2048个（1GHz 时脉实现 4 TOPs），能够为工厂自动化等需要更高效能的应用提供有力支持。

此外，Ethos-U85提供了相同的一致工具链，因此合作夥伴能够利用现有的软件投资，让软件工程师以及开发人员能够快速上手。目前已有Alif半导体和英飞凌宣布采用Ethos-U85开发新一代产品。

结合Helium与Ethos NPU MCU智能升级

要实现丰富多样的AIoT应用，MCU的智能升级是重要关键。ARM主任应用工程师林宜均表示，MCU的AI效能提升，除了Ethos NPU之外，Helium也扮演了重要角色。

「AIoT应用要求适切的算力需求，适才适所即可。因此，ARM提供了不同的设计选项，业者可利用Helium达到基本的ML功能，与一定的效能提升，若再加上NPU，则能进一步提升算力。」

他解释说，Helium是为Cortex-M核心提供的矢量引擎，它的重要特点在于可支持各种数据格式，包括整数与浮点运算，能为MCU带来基本的AI功能。相较于现有的ARMv8-M建置，信号处理效能提升5倍，ML效能，特别是矩阵的整数乘法，提升了15倍。

至于Ethos对AI算力的提升，以搭配Ethos-U55为例，与前一代Cortex-M4相比，在执行关键词检测（DS-CNN-L）、影像分类（MobilNet）、和语音识别（Wav2letter）等基准测试结果来看，分别大幅提升了110倍、73.7倍及253.7倍。

目前已有多家厂商采用Cortex-M55与Ethos-U55开发新产品，包括新唐推出适用于机器学习的新端点 AI 平台、奇景光电的智能影像处理器，以及英飞凌与瑞萨也纷纷推出新品，已有越来越多的MCU具备智能功能，使边缘AI更为普及。

建构生态系统与IoT参考设计加速产品上市时程

除了提供增强的矢量引擎与ML加速器，以推升处理器核心的AI算力之外，ARM亦致力于打造一致化的软件生态系与IoT参考设计，协助业者缩短产品的开发周期。

黄晏祥表示，Corstone是ARM专为IoT打造的参考设计平台，透过提供预先整合和验证的IP子系统来加速 SoC设计。以最新推出的Corstone-320为例，它整合了Cortex-M85、Mali-C55 ISP和新的Ethos-U85 NPU，可为语音、音讯和视觉等边缘AI应用提供所需效能。

此外，边缘AI软件生态系也逐渐汇聚于ARM架构，除了ONNX、TensorFlowLite、PyTorch等AI框架之外，在软件方面，像是Edge Impulse、Nata AI也都原生支持Ethos，有助于Ethos的最佳化设计，发挥极致边缘AI效能。

林宜均补充说明，通常边缘AI处理器会包含CPU、DSP和NPU三大区块，各有其程序码需进行编译。若采用不同厂商的NPU，可能每个部分都须采用不同的工具链或开发流程，使开发工作更为复杂。

对此，ARM建构了一致化的软件开发流程，以Cortex-M为例，用户可透过ARM提供的NPU模型编译工具 – Vela Compiler，分配任务给不同的运算引擎执行，尽可能发挥NPU的最大算力，CPU则能透过呼叫CMSIS-NN软件数据库的神经网络内核来达成效能的最佳化。统一的软件设计流程支持是ARM的一项重要优势，也是实现边缘AI的最快途径。

欲了解ARM如何协助生态系应对人工智能运算挑战，协助开发人员快速部署，请点此造访。

欲了解可用于基础设施边缘的ARM技术，以打造基于ARM架构的人工智能基础设施，请点此造访。

加入已选取到「关键字追踪」什麽是「关键字追踪」

ARM推动边缘AI创新 加速生成式AI在终端装置实现

ARM推动边缘AI创新加速生成式AI在终端装置实现