ARM推动边缘AI创新 加速生成式AI在终端装置实现
- 李佳玲/台北
随着全球掀起生成式AI热潮,如何推动此技术在各种终端装置的实现,已成为业界的关注焦点,以期能打造更丰富的创新应用,带动庞大商机。对此,ARM日前推出新一代Ethos-U85 NPU,透过显着的效能提升,进一步推升了MPU/MCU的AI算力,不仅加速推进边缘AI的发展,更有助于带动生成式AI在终端装置的普及应用。
ARM亚太区IoT市场资深经理黄晏祥表示,边缘运算持续演进,从嵌入式系统、加入联网功能成为物联网,到最近导入AI成为AIoT,已带动产业的全新变革。随着市场快速发展,应用场景也日趋多元,包含智能零售、智能工业、以及智能家庭等,AI正开创出更多商机。
「以零售市场为例,过去是用人力操作的POS机,现在为节省人力,已升级为自助结帐机,未来更将发展至无人商店,把人力降至最低,包括商店管理、库存补货等都可透过AI来执行,甚至能还以生成式AI来实现消费者与虚拟店员的互动,由此我们可看到生成式AI在边缘运算场景上的需求。」
由于边缘AI装置的应用多元,对算力也有不同需求,ARM为兼顾效能与扩展性,已建构完备解决方案。针对Cortex-A系列核心的MPU市场,在ARMv9架构中,除了结合Neon、SVE2、SME等指令集扩展,支持音/视讯编解码加速,以及矢量和矩阵运算,以提升处理器核心效能之外,还能再整合Ethos AI加速器,进一步实现最佳的边缘AI效能。而在MCU方面,Cortex-M核心则是透过Helium矢量运算指令集以及结合Ethos NPU来实现的。
黄晏祥强调,为推动人工智能的发展,ARM聚焦于硬件的创新与参考设计、标准和软件、以及生态系统三个领域,同时推动AI合作夥伴计划,藉由共同合作和创新解决方案,以简化各领域的AI部署。
全新推出Ethos-U85 支持Transformer架构
为进一步提升AI算力,ARM日前发布了最新的Ethos-U85 NPU,可把AI带到更广泛的边缘装置。
黄晏祥表示,Ethos-U85最重要的特性之一是支持Transformer架构,这是目前开发生成式AI最普遍采用的架构,因此能协助业者更快地实现生成式AI落地终端装置的目标。此外,不管是Cortex-A或Cortex-M,Ethos-U85均支持,又扩大了它的应用范围。
在效能方面,与上一代产品相比,Ethos-U85效能提升四倍,功耗效率提高20%,同时,其MAC单元可从 128个扩展到2048个(1GHz 时脉实现 4 TOPs),能够为工厂自动化等需要更高效能的应用提供有力支持。
此外,Ethos-U85提供了相同的一致工具链,因此合作夥伴能够利用现有的软件投资,让软件工程师以及开发人员能够快速上手。目前已有Alif半导体和英飞凌宣布采用Ethos-U85开发新一代产品。
结合Helium与Ethos NPU MCU智能升级
要实现丰富多样的AIoT应用,MCU的智能升级是重要关键。ARM主任应用工程师林宜均表示,MCU的AI效能提升,除了Ethos NPU之外,Helium也扮演了重要角色。
「AIoT应用要求适切的算力需求,适才适所即可。因此,ARM提供了不同的设计选项,业者可利用Helium达到基本的ML功能,与一定的效能提升,若再加上NPU,则能进一步提升算力。」
他解释说,Helium是为Cortex-M核心提供的矢量引擎,它的重要特点在于可支持各种数据格式,包括整数与浮点运算,能为MCU带来基本的AI功能。相较于现有的ARMv8-M建置,信号处理效能提升5倍,ML效能,特别是矩阵的整数乘法,提升了15倍。
至于Ethos对AI算力的提升,以搭配Ethos-U55为例,与前一代Cortex-M4相比,在执行关键词检测(DS-CNN-L)、影像分类(MobilNet)、和语音识别(Wav2letter)等基准测试结果来看,分别大幅提升了110倍、73.7倍及253.7倍。
目前已有多家厂商采用Cortex-M55与Ethos-U55开发新产品,包括新唐推出适用于机器学习的新端点 AI 平台、奇景光电的智能影像处理器,以及英飞凌与瑞萨也纷纷推出新品,已有越来越多的MCU具备智能功能,使边缘AI更为普及。
建构生态系统与IoT参考设计 加速产品上市时程
除了提供增强的矢量引擎与ML加速器,以推升处理器核心的AI算力之外,ARM亦致力于打造一致化的软件生态系与IoT参考设计,协助业者缩短产品的开发周期。
黄晏祥表示,Corstone是ARM专为IoT打造的参考设计平台,透过提供预先整合和验证的IP子系统来加速 SoC设计。以最新推出的Corstone-320为例,它整合了Cortex-M85、Mali-C55 ISP和新的Ethos-U85 NPU,可为语音、音讯和视觉等边缘AI应用提供所需效能。
此外,边缘AI软件生态系也逐渐汇聚于ARM架构,除了ONNX、TensorFlowLite、PyTorch等AI框架之外,在软件方面,像是Edge Impulse、Nata AI也都原生支持Ethos,有助于Ethos的最佳化设计,发挥极致边缘AI效能。
林宜均补充说明,通常边缘AI处理器会包含CPU、DSP和NPU三大区块,各有其程序码需进行编译。若采用不同厂商的NPU,可能每个部分都须采用不同的工具链或开发流程,使开发工作更为复杂。
对此,ARM建构了一致化的软件开发流程,以Cortex-M为例,用户可透过ARM提供的NPU模型编译工具 – Vela Compiler,分配任务给不同的运算引擎执行,尽可能发挥NPU的最大算力,CPU则能透过呼叫CMSIS-NN软件数据库的神经网络内核来达成效能的最佳化。统一的软件设计流程支持是ARM的一项重要优势,也是实现边缘AI的最快途径。
欲了解ARM如何协助生态系应对人工智能运算挑战,协助开发人员快速部署,请点此造访。
欲了解可用于基础设施边缘的ARM技术,以打造基于ARM架构的人工智能基础设施,请点此造访。