ARM以全面运算实现终端装置机器学习 智能应用 影音
TERADYNE
Event

ARM以全面运算实现终端装置机器学习

  • 李佳玲台北

ARM院士、副总裁暨机器学习事业部总经理Jem Davies
ARM院士、副总裁暨机器学习事业部总经理Jem Davies

ARM的处理器技术可说是为现代运算的重要基础。现在,ARM正试图运用其既有优势,推动机器学习(ML)在各种终端装置上的广泛应用,以维持该公司在新兴机器学习市场的领先地位。

在2019年的国际电脑展(COMPUTEX 2019)上,ARM院士、副总裁暨机器学习事业部总经理Jem Davies说明了ARM对ML市场发展的看法和策略,强调ARM是市场上唯一拥有广泛CPU、GPU和NPU产品组合的供应商,以及强大的生态系统支持。藉由采用全面运算(Total Compute)方式,ARM将能够提供最佳的整合解决方案,以因应现今的挑战并实现ML应用的庞大潜能。

ARM全面运算(Total Compute)方式提供最佳的整合解决方案,实现ML应用的庞大潜能。

ARM全面运算(Total Compute)方式提供最佳的整合解决方案,实现ML应用的庞大潜能。

ML已无所不在

「毫无疑问,ML现已无所不在了,」Davies 表示。ARM估计,全球约有40亿台智能手机,其中有85%的智能手机的机器学习是利用CPU或CPU+GPU来执行的,而且最常见的使用案例,包括Google翻译、Instagram上用「Bokeh」景深拍照、语音识别到3D安全登录,都是在CPU上执行的。

此外,Davies 强调,「有些ML演算法正用在我们以前从未想到的领域。举语音识别为例,传统上,我们需要执行像是噪音消除、麦克风分离和波束成形等音讯处理,然后再执行ML演算法。但现在,可以直接把原始的麦克风数据丢到ML演算法中,它便会自己把噪音消除。或者,我们可以透过将压力传感器放入鞋中,侦测出你的跑步姿势有什麽问题等。」

「我们越来越普遍看到ML以极具破坏式创新的方式被应用,此一趋势让很多人感到惊讶。由于终端和云端可提供大量的数据,我们认为这将可大量释放创造力,而ARM将努力透过我们广泛的ML最佳化解决方案来开创各种可能性。」

ML是一个软件问题

从ARM的角度来看,ML基本上是一个软件问题。「ML是从CPU开始的,每台执行ML功能的装置都有一个CPU,它负责执行程序码或将其交给GPU或NPU。这就是我们增强Cortex-A和Cortex-M核心以更有效地执行ML的原因,同时还推出了专用的ML处理器来满足更高的效能和功效要求。」

Davies 表示,ARM拥有独特的优势,可结合CPU/GPU/NPU设计人员和软件架构师,共同为CPU/GPU/NPU最佳化程序码,因此我们可以为在此三种处理器上执行的程序码进行RTL模拟,无缝地实现硬件与软件的最佳设计。

藉由全面性的作法,Davies认为ARM可以提供最灵活和整合的ML解决方案,以满足客户的不同要求。透过一个通用的硬件架构,ARM的目标是强化其软件和生态系统支持,以加速ML部署,并克服现今产业面临的碎片化挑战。

「我们拥有最大的运算生态系统之一,但对于ML来说,它与现有的生态系统完全不同,因为有很多新业者进入此新领域,」机器学习事业部机器学习生态系统总监Kathleen Kallot表示。「与主要的合作夥伴携手对我们来说非常重要。例如,我们正与Google合作开发嵌入式装置用的TensorFlow Lite Micro。」

「此外,由于ML演算法业者是推动创新的关键,我们还需直接与他们互动,以确保他们能够从我们的IP中获得最佳效能。我们预期,今年和明年会有很多新的进展,相关生态系统将迅速地建构起来。」

段标:ARM的ML处理器

随着ML兴起,特定领域运算(domain-specific computing)成为市场上的流行语。作为领先的通用运算技术供应商,Davies强调,「ARM已投入特定领域市场15年之久,当然,我们提供CPU,并且随着显示功能日益重要,我们也开发了GPU并使其在市场上取得成功。现在,因应市场的发展,我们也进入了ML处理器领域。」

事实上,正是Jem Davies在ARM打造Mali GPU的成功故事,现在他想在ML市场中再次缔造历史。「对于某些需要更高效率的任务,客户可能需要采用特定领域处理器来执行特定的作业负载。对我们来说,ML处理器是一款神经网络运算的特定处理器,用来执行矩阵和卷积运算。」Davies表示,「从系统的角度来看,我们不会大力鼓吹客户采用ML处理器。因为,根据不同的使用案例,客户需要厘清执行ML演算法的最佳方法,有时候,CPU就足够了。」

作为ARM完整产品组合的成员之一,ML处理器拥有业界领先的5 TOPs/W功耗效率和高达4 TOP/s的出色效能。此外,凭藉着多核心扩展性,它可在单一丛集中扩展到8个NPU,取得32 TOPs,或者在网状配置中扩展到64个NPU。「数据压缩技术对于ML处理器的开发非常重要。运用我们在GPU和视讯方面的优势,我们会把它带入ML」Davies强调。

段标:采取全面性作法在ML市场取得优势

尽管有众多的现有和新进业者加入NPU市场,Davies相信,ARM仍然会在此领域取得优势。他说,「与其他公司不同,我们认为ML是一个软件问题,而不是硬件问题。 这就是为什麽我们投入大量资源让ARM NN对开发人员来说易于使用,因为在ARM核心上高效执行软件是我们的重要任务。」

虽然ARM并没有抢先进入NPU市场,但他表示,这反而给了我们「后发者优势」,让我们可以从那些先进入市场的业者学习经验,再提供更佳的解决方案。

由于ML市场高度分散,有许多不同的软件和硬件架构,Davies表示,生态系统只需要一个,而且最多能容忍2或3个解决方案,数百种方案在市场上并存是不可能的。因此,随着市场发展,许多业者势必会被淘汰出局。特别是,许多新创业者都专注于开发ML硬件,却没有足够的资源撰写软件与建构生态系统。

然而另一方面,Davies在ML演算法领域也看到了惊人的创新,这些新兴业者对我们的生态系统至关重要,我们将尽最大努力发挥他们的专业知识,来实现更多的可能性。

他总结说,要真正开创新一代的ML使用案例,我们需要从头开始最佳化和建构所有的关键组成。而ARM可以提供来自硬件、软件和生态系统的全面运算解决方案,以满足市场的真正需求。


关键字