Cadence发表专为神经网络设计的新款Tensilica DSP 智能应用 影音
EVmember
Event

Cadence发表专为神经网络设计的新款Tensilica DSP

神经网络近来的快速成长已成为业界众所瞩目的焦点。针对汽车、监控设备、无人机与移动市场等各类终端装置对于人工智能(AI)推论(inference)任务的需求,Cadence益华电脑日前推出专为神经网络设计的Tensilica Vision C5 DSP。此IP最主要的特性在于,拥有每秒高达1TMAC的运算能力,可独立执行所神经网络的运算任务,以实现更高的灵活性与效率。

Cadence Tensilica事业群资深行销总监Steve Roddy表示,从Google、亚马逊等网络龙头开始在数据中心推动深度学习训练开始,引爆了AI的革命性进展,未来各种智能服务将会逐渐扩散到嵌入式终端系统中,因此终端设备芯片需要有足够的运算资源,才能满足神经网络推论任务的需求。

Cadence Tensilica事业群资深行销总监Steve Roddy。

Cadence Tensilica事业群资深行销总监Steve Roddy。

然而,神经网络技术快速进展,过去4年来,由于演算法的不断进步,运算需求也提升了16倍之多。此外,以常用的神经网络模型来说,包括AlexNet、Inception V3、以及ResNet等,它们的网络架构中卷积层所占的比例也各有不同,并且还在持续更新。

面对此演进中的新兴技术,Roddy问到,若有芯片设计业者想要在2017年为其产品选用推论平台,并预计于2019至2020年间达成出货目标,他们应要采用哪种方案才能同时满足低功耗效率以及弹性架构的需求?

DSP可满足神经网络运算所需的高度灵活性

他解释说,在汽车、无人机与监控系统中,这些以摄影机为基础的视觉系统需要两种基本型态的视觉最佳化运算。首先,来自摄影机的输入影像需利用传统的电脑摄影?影像演算法进行增强。然后,再由神经网络识别演算法执行物件的侦测与识别。

但是,现有的神经网络加速器解决方案通常都是采用附加在影像DSP上的硬件加速器设计,因此神经网络程序码必须在DSP上执行部分网络层,再卸载卷积层到加速器中。这样的架构会需要大量的数据搬动,不但没有效率,而且会浪费不必要的电源。

若利用专为神经网络最佳化设计的Vision C5 DSP,它可执行所有的神经网络运算层,而不只是卷积层而已。因此,就能空出主要视觉?影像DSP的运算资源,来独立执行影像增强应用,而Vision C5 DSP仅用来执行推论任务就好。藉由免除神经网络 DSP以及视觉?影像DSP之间的数据移动,相较于硬件加速器设计,可实现更低功率的设计方案,以及简单的神经网络单处理器编程模型。

Roddy强调,Vision C5 DSP可在不到1平方公厘的芯片面积上,实现每秒1TMAC的运算能力。针对知名的AlexNet CNN(卷积神经网络)效能基准以及Inception V3 CNN效能基准,Vision C5 DSP比一般商用的GPU分别快了6倍及9倍 。

此外,从终端市场的应用来看,神经网络的工作负载也有很大的差异性。举例来说,移动电话的翻译或语音助理等应用,只是偶尔才执行一次,但是监控系统则是需要随时执行一些神经网络,再往上,到自驾车应用,则是随时需要执行大量的神经网络作业。

Roddy表示,这些从低端到高端的神经网络应用,所需的运算资源并不相同,需要的处理速度从小于200GMAC/sec、到1TMAC/sec,到最高10TMAC/sec都有可能。因此,在选择嵌入式系统的推论平台时,是无法仅靠单一方案来满足所有不同的市场区隔。

对此,Cadence的一系列Tensilica Vision DSP在功率效率以及效能方面,都实现了重大的突破,能够符合新一代神经网络的运算需求。以其2016年发布的Tensilica Vision P6 DSP为例,其速度便足以支持移动设备尔偶使用的神经网络识别任务。而对于自驾车等高端应用,则能采用多核心Vision C5 DSP的扩充性设计,以达到multi-TMAC/sec的运算能力。

Roddy指出,Vision DSP的通用、可编程特性,符合神经网络持续演进所需的灵活架构,并可随时加入最新开发的网络层,对于想要先行部署智能应用的芯片业者来说,是远优于硬件加速器的选择。他也看好,神经网络应用将会成为未来几年嵌入式芯片设计的重要成长力量。


关键字