可程序化逻辑闸加速机器学习应用

魏淑芳
2017-03-13
分享

赛灵思公司(Xilinx)亚太区工业及医疗市场高级经理罗霖。

赛灵思公司(Xilinx)亚太区工业及医疗市场高级经理罗霖，提到最近谷歌翻译越来越精准，正是运用机器学习技术。深度学习(Deep Learning)技术底下有多层度？摺积式(Convolutional)？回馈式(Recurrent)神经网络技术等。拜摩尔定律及云端大数据数据库累积，使得深度学习技术开始进入市场应用。

各种机器学习导入的应用有其系统需求与技术挑战。赛灵思的场域可程序逻辑闸(Field Programmable Gate Array；FPGA)聚焦于已训练好的单向推理(inference)应用。像亚马逊AWS、百度与腾讯等云服务商，在HPC服务器的前端部署基于赛灵思FPGA的加速器，提供云定制、云加速、安防、自驾车与语音？影像识别、医疗影像诊断、金融与深度学习的应用。

罗霖以图表比较，CPU能效、计算核心数最低；DSP/GPU则能效、计算核心数稍高；FPGA在能效上更高；最高则是ASIC，但其可调整程度也最低。同时，在边缘侧的机器学习应用上，低时延是非常重要的指标，FPGA相对于GPU具有10倍以上的优势。

AlexNet处理一张待识别图片，需经22.7亿道权重运算与6,500万笔数据搬移。通过剪枝(Pruning)和参数共享(Weight Sharing)技术可以达到30？50倍的运算模型压缩率，且无损其识别结果。

以ILSVRC 2012做影像识别，8/16位元识别错误率低于1%，但较32位元高出10倍能效与4倍存储器带宽节省量。学术界正研究以2/3bit位元神经网络(Bitwise Neural Network；BNN)，其识别率正逐年逼近摺积式神经网络(Convolutional Neural Network；CNN)。

罗霖指出赛灵思FPGA具备定制化平行运算，存储器优化架构，与较佳的能源效率(5.25倍，AlexNet影像识别)等特性。27x18bit宽度的单一乘法器设计，用8bit量化值可单周期同时做两个MACC运算。由暂存器档案、逻辑闸与管线紧凑化的(DSP Supertiles)运算阵列设计，可以超过600MHz时脉做摺积运算。

Xilinx KU115/VU9P/VU13P FPGA提供9.2？19.3万亿运算(TOPs)、51？66W功耗，以及较竞争者优出4~6倍的能效。以Xilinx Zynq7020与即将推出的Zynq ZU2CG，在自驾车的影像识别？物体侦测？脸部识别效能，直追Tegra K1/X1 SoC平台，但性价比更优。

Xilinx提供符合OpenCL/HLS(C/C++)的SDSoC/SDAccel开发环境、编译器与优化的函式库，开发过程可缩短到数周之内。2017年5月后更可达到较Tegra TX1高出3.8倍的影像识别能效。目前已有客户导入无人机、自驾车ADAS系统与云影像识别的应用。

关键字

赛灵思机器学习可程序逻辑控制器(PLC)

加入已选取到「关键字追踪」什麽是「关键字追踪」

商情专辑－2017嵌入式技术论坛专辑