中文繁體版   English   星期三 ,9月 30日, 2020 (台北)
登入  申请试用  MY DIGITIMES236
 
科技产业报订阅
NVIDIA

恩智浦以微控制器为基础的Glow神经网络编译器

  • 陈毅斌台北

恩智浦发表业界首款以微控制器为基础的Glow神经网络编译器,实现边缘机器学习

恩智浦半导体宣布eIQ机器学习(ML)软件对Glow神经网络(Neural Network;NN)编译器的支持功能,针对恩智浦的i.MX RT跨界微控制器,带来业界首款能够实现占用较低存储器并提供更高效能的神经网络编译器应用。Glow编译器由Facebook开发,能够集成特定目标的最佳化,恩智浦利用这种能力,使用适用于Arm Cortex-M核心和Cadence Tensilica HiFi 4 DSP的神经网络运算元库(NN operator libraries),最大程度地提升i.MX RT685以及i.MX RT1050和RT1060的推论效能。此外,此功能已集成至恩智浦的eIQ机器学习软件开发环境中,于恩智浦的MCUXpresso软件开发套件(Software Development Kit;SDK)中免费提供。

运用Glow充分发挥微控制器架构特性的优势

2018年5月,率先开发PyTorch的Facebook导入Glow(Graph Lowering神经网络编译器),作为开源社区(open source community)专案,其目的是藉由最佳化提高一系列硬件平台上的神经网络效能。作为神经网络编译器,Glow能在尚未最佳化的神经网络的基础上,生成高度最佳化的代码。此特点有别于典型的神经网络模型处理(neural network model processing),后者采用实时编译,因此需要更高的效能,并增加存储器消耗。像Glow这样直接运行最佳化的代码可以显著降低处理与存储器要求。恩智浦也在Glow开源社区中扮演著积极角色,帮助推广和普及Glow的新功能。

Facebook软件工程经理Dwarak Rajagopal表示:「GitHub中提供的标准版Glow可以直接在任何装置上运行,让使用者能够灵活地针对Arm Cortex-A和Cortex-M核心以及RISC-V架构等其感兴趣的基础架构编译神经网络模型核心。恩智浦藉由充分运用微控制器运算元件的专用软件库,并将效能提升2至3倍,展示了从以云端为基础的高阶机器到低成本的嵌入式平台的广泛范围内,将Glow神经网络编译器用于机器学习应用的诸多优势。」

最佳化机器学习架构以增强竞争优势

未来几年内,对机器学习应用的需求预期将大幅增加。据TIRIAS Research预测,2025年,98%的边缘装置将使用某种形式的机器学习/人工智能。根据市场预测,届时即使没有专用的机器学习加速器(machine learning accelerator),也将有180亿至250亿部装置具有机器学习功能。消费型装置制造商和嵌入式物联网开发人员将需要将机器学习架构最佳化,进而实现使用微控制器的低功耗边缘嵌入式应用。

恩智浦半导体资深副总裁暨边缘处理业务总经理Ron Martino表示:「藉由eIQ机器学习软件架构,运用高度集成的i.MX应用处理器和高效能i.MX RT跨界微控制器的强大功能,恩智浦正在推动机器学习功能在边缘装置上的实现。随著i.MX RT系列跨界微控制器增加对Glow的支持,我们的客户能够编译深度神经网络模型,为他们的应用带来竞争优势。」

恩智浦针对机器学习的边缘智能环境解决方案是一个全面的工具包(toolkit),提供开发人员需要的建构模块,帮助他们高效地在边缘装置中实现机器学习。Glow集成到eIQ软件后,机器学习开发人员将拥有全面的高效能架构,可在包含i.MX RT跨界微控制器和i.MX 8应用处理器在内的恩智浦边缘处理解决方案上进行扩展。客户拥有更强大的工具,能够在i.MX RT微控制器和i.MX应用处理器上开发机器学习语音应用、物体辨识、脸部辨识等应用。

藉由实施恩智浦的Glow神经网络来提高效能

eIQ现在具有针对Glow和TensorFlow Lite的推论支持,对此,恩智浦会定期执行基准测试以衡量其效能。微控制器基准测试包含标准神经网络模型,例如CIFAR-10。以CIFAR-10模型为例,恩智浦采集的基准测试资料展现了如何运用i.MX RT1060装置(采用600MHz Arm Cortex-M7)、i.MX RT1170装置(采用1GHz Arm Cortex-M7)和i.MX RT685装置(采用600 MHz Cadence Tensilica HiFi 4 DSP)的效能优势。

恩智浦对Glow的支持与Cadence为Tensilica HiFi 4 DSP提供的神经网络库(Neural Network Library;NNLib)紧密相结合,该DSP提供4.8GMAC效能。同样以CIFAR-10为例,恩智浦的Glow藉由使用此DSP来加快神经网络运算,实现25倍的效能提升。Cadence Tensilica IP企业副总裁Sanjive Agarwala表示:「Tensilica HiFi 4 DSP最初集成在i.MX RT600跨界微控制器中,目的是提高各种不同的音讯和语音处理应用的速度。

然而,当越来越多机器学习推理应用瞄准低成本、低功耗的微控制器级应用时,HiFi 4 DSP凭借固有的DSP运算效能,成为加快这些神经网络模型的理想选择。随著恩智浦在eIQ机器学习软件中采用Glow,i.MX RT600微控制器的客户能够利用该DSP来满足多种机器学习应用的需求,包含关键字检索(keyword spotting;KWS)、语音辨识、降噪和异常检测。」

Arm公司机器学习营销副总裁Dennis Laudick表示:「恩智浦将Arm CMSIS-NN软件库涵盖在elQ中,目的是尽可能地提升效能,减少Arm Cortex-M核心上的神经网络存储器占用。以CIFAR-10神经网络模型为例,恩智浦能够利用CMSIS-NN实现1.8倍的效能提升。其它神经网络模型应该亦能够产生相似的结果,这清楚地展示了此款高阶编译器与我们的最佳化神经网络运算元库(NN operator library)的优势。」