可程序化逻辑闸加速机器学习应用 智能应用 影音
EVmember
ST Microsite

可程序化逻辑闸加速机器学习应用

赛灵思公司(Xilinx)亚太区工业及医疗市场高级经理罗霖。
赛灵思公司(Xilinx)亚太区工业及医疗市场高级经理罗霖。

赛灵思公司(Xilinx)亚太区工业及医疗市场高级经理罗霖,提到最近谷歌翻译越来越精准,正是运用机器学习技术。深度学习(Deep Learning)技术底下有多层度?摺积式(Convolutional)?回馈式(Recurrent)神经网络技术等。拜摩尔定律及云端大数据数据库累积,使得深度学习技术开始进入市场应用。

各种机器学习导入的应用有其系统需求与技术挑战。赛灵思的场域可程序逻辑闸(Field Programmable Gate Array;FPGA)聚焦于已训练好的单向推理(inference)应用。像亚马逊AWS、百度与腾讯等云服务商,在HPC服务器的前端部署基于赛灵思FPGA的加速器,提供云定制、云加速、安防、自驾车与语音?影像识别、医疗影像诊断、金融与深度学习的应用。

罗霖以图表比较,CPU能效、计算核心数最低;DSP/GPU则能效、计算核心数稍高;FPGA在能效上更高;最高则是ASIC,但其可调整程度也最低。同时,在边缘侧的机器学习应用上,低时延是非常重要的指标,FPGA相对于GPU具有10倍以上的优势。

AlexNet处理一张待识别图片,需经22.7亿道权重运算与6,500万笔数据搬移。通过剪枝(Pruning)和参数共享(Weight Sharing)技术可以达到30?50倍的运算模型压缩率,且无损其识别结果。

以ILSVRC 2012做影像识别,8/16位元识别错误率低于1%,但较32位元高出10倍能效与4倍存储器带宽节省量。学术界正研究以2/3bit位元神经网络(Bitwise Neural Network;BNN),其识别率正逐年逼近摺积式神经网络(Convolutional Neural Network;CNN)。

罗霖指出赛灵思FPGA具备定制化平行运算,存储器优化架构,与较佳的能源效率(5.25倍,AlexNet影像识别)等特性。27x18bit宽度的单一乘法器设计,用8bit量化值可单周期同时做两个MACC运算。由暂存器档案、逻辑闸与管线紧凑化的(DSP Supertiles)运算阵列设计,可以超过600MHz时脉做摺积运算。

Xilinx KU115/VU9P/VU13P FPGA提供9.2?19.3万亿运算(TOPs)、51?66W功耗,以及较竞争者优出4~6倍的能效。以Xilinx Zynq7020与即将推出的Zynq ZU2CG,在自驾车的影像识别?物体侦测?脸部识别效能,直追Tegra K1/X1 SoC平台,但性价比更优。

Xilinx提供符合OpenCL/HLS(C/C++)的SDSoC/SDAccel开发环境、编译器与优化的函式库,开发过程可缩短到数周之内。2017年5月后更可达到较Tegra TX1高出3.8倍的影像识别能效。目前已有客户导入无人机、自驾车ADAS系统与云影像识别的应用。