GPU与辅助处理器的运算应用
超级电脑?HPC高运算效能系统,从过去单核心硬件最佳化架构,朝向多核多系统丛集平行化发展,更搭着异质性运算架构(Heterogenous System Architecture;HSA)的顺风车,将着重序列纯量运算的CPU与平行矢量运算的GPU做融合,或导入着重浮点运算的图形处理器(GPU)作为辅助处理器,以提升HPC在平行运算的能力…
超级电脑?HPC高运算效能系统,其处理器芯片,均以先进制程来微缩线路间距,采取多达12?18核心+平行多线程(Symetric Multi-Thread;SMT)的64位元微架构设计,并且整合内嵌式高速存储器,作为高速快取存储器与对外存储器汇流排的高速缓冲设计。并采用像MCP(Multi-Chip Package)多芯片封装、3D立体堆叠(3D Stacks)与2.5D中介板(2.5D Interposer)等先进封装技术。
像超微(AMD) 16核Opteron6274、Opeteron 6370P(Warsaw)、IBM Power8系列、源自于Oracle/SUN的FT-1500(SPARC V9)、Fujitsu的SPARC64 X+、英特尔(Intel)XEON E3/E5/E7处理器等。
英特尔于2014秋季IDF论坛中,首度发布以22nm制程Haswell-EP核心架构打造的XEON E5-2600处理器,使用LGA 2011-3脚位设计最顶级版本核心数高达18核、36线绪设计,内建45MB L3快取存储器、内建DDR4-2133存储器,最大存储器容量增加为1.5TeraBytes,同时内建2条超高速QPI汇流排(带宽达9.6GT/s)。
IBM则于ISSCC’13国际固态电子电路研讨会上,正式发表POWER8处理器。采先进的22纳米SOI绝缘矽制程集结15道金属电路层打造,POWER8处理器采6?12核心设计,矽晶电路面积为650mm2,运作时脉高达4GHz;每个核心可平行执行8线绪(8 Threads);具备32KB L1指令快取、64KB L1数据快取与512MB第二阶快取存储器容量。
以高速96MB eDRAM作为第三阶快取存储器,并预留外接128MB eDRAM第四阶快取架构。处理器内建PCIe 3.0汇流排控制电路,双向传输带宽达32GB/s。并提供协同加速处理器界面(Coherent Accelerator Processor Interface;CAPI),使NVIDIA Tesla/Volta等GPU/协同处理器芯片直接连通来做协同运算。
异质性GPU?多核芯片协同平行化运算
近年来超级电脑或HPC高效能运算系统,搭着异质性运算架构(Heterogenous System Architecture;HSA)的顺风车,将着重序列纯量运算的CPU与平行矢量化运算的GPU做融合(如超微APU),或导入着重浮点运算的图形处理器(GPU)作为辅助处理器,以提升HPC在平行运算的能力。
而超微(AMD)、辉达(NVIDIA)等高端绘图显示卡,由于其绘图处理器也具备矢量级、平行化多管线SIMD浮点运算能力,自然也成为建构云端?HPC高效能服务器的辅助涡轮引擎。
英特尔(Intel)于2013年1月,正式推出XEON Phi协同处理器5110P(代号Kinght Corner),外型类似可插在PCI-Express x16插槽的独立绘图显示卡;内部整合了采22nm制程,60个改良型P54C(Pentium)核心的处理器芯片,以及8GB GDDR存储器,但对外汇流排规格仅支持到PCI Express 2.0规格,x16设计可提供双向8GB/S互连带宽,一套辅助处理器?界面卡可提供1,010GFLOPs(1TeraFLOPS)万亿次浮点运算,一套机架式服务器理论上安插1?8张XEON Phi协同处理器卡,实际上因受到CPU?芯片组PCI Express汇流排驱动线道总数限制,一般约3?4张已经是上限。
大陆的天河2号,则采取每一个节点以两颗22纳米制程、Ivy-Bridge-EX架构的2.2GHz XEON E5-2692 12核处理器,搭配3套第二代架构(Knight Landing)的8GB GDDR、1.1GHz XEON Phi31S1P协同处理器,此时XEON Phi内建达57核心,单协同处理器能提供1TFLOPs的浮点运算效能。
AMD在2013年Q4 出货Hawaii架构的Radeon R9 290X及290绘图卡,经过两季后,于2014年4月推出具备16GB GDDR5存储器,针对专业绘图市场所使用的FirePro W9100,单卡提供FP32 5.24TFLOPS(或FP64 2.62TFLOPS);以及8GB GDDR5、具备水冷架构的双核心Radeon R9 295X2显示卡(代号Vesuvius)。
卡上直接内建两颗28nm制程、1,018MHz的Radeon R9 290X绘图芯片,共提供5,732个串流处理器核心,以及FP64/FP32 5.733TFLOPs浮点运算效能;R9 295X2系统设计功耗(TDP)高达500W,为此AMD导入美商Asetek设计的一体式水冷系统来解决散热问题。
对外界面则支持PCI Express 3.0规格,函式部分支持OpenCL、C++、AMP、DirectCompute 11与微软DirectX 11.2,以及AMD自家开发的GCN原生界面Mantle API。
辉达(NVIDIA)于2014年10月19日正式发表基于第十代NVIDIA GPU微架构-Maxwell (GM204)的全新GeForce GTX 980绘图卡。GeForce GTX 980芯片具备52.2亿晶体管,核心时脉采1,126MHz设计,可超频至1,216MHz,内部塞入多达2,048个CUDA处理核心;GPU核心内建4个64Bit存储器控制器,存储器汇流排宽度为256bit设计,单精度浮点运算每秒可达5万亿次,而倍精确度浮点运算则达到2.5万亿次。
而在11月超级电脑展(SC14)中,NVIDIA正式推出使用两颗GK210绘图显示核心所组成的新款高端运算卡Tesla K80,其浮点运算效能可达每秒 8.5万亿次,倍精确度浮点运算达2.9万亿次,堪称全世界最快的运算卡产品,同时其CUDA加速程序界面也纳入对IBM POWER8处理器的支持。
IBM Power8/9与NVDIA Tesla/Volta携手合作 HPC威力再现
由IBM华生研究中心掌舵的效能优化增强RISC架构(Performance Optimization With Enhanced RISC)POWER处理器,曾是各种高效能工作站、服务器与嵌入式系统的运算核心,从1990年2月用于RISC System?6000工作站?服务器,1998年POWER3、POWER4处理器,全面性实作64位元POWER指令集。
2004年5月以130纳米SOI绝缘矽制程,以4颗多芯片构装(Multi-Chip Module;MCM)打造双核心?平行双线绪的POWER5处理器而声名大噪。2007年65纳米SOI制程POWER6处理器首增加VMX指令集,时脉推进到4.7GHz。2010年IBM推出 8核心POWER7,以略降为3.2GHz时脉,每核心4线绪与4颗实体矽芯片的MCM封装,达成一颗实体处理器芯片能执行16个线绪的平行运算能力。
POWER架构曾是苹果PowerMac、PowerBook系列电脑采用的中央处理器,也曾授权矽智财IP电路,成为Nitendo WII、SONY PlayStation 3、Microsoft Xbox360的处理器中的图形?游戏加速运算电路。
2013年8月IBM与Google、Mellanox、NVIDIA 及泰安电脑(Tyan)宣布合组OpenPOWER联盟,以IBM Power处理器架构的平台技术对外开放,IBM将投入10亿美元在Linux和POWER平台开源(Open Source)科技创新上,协助客户部署更先进的智能运算系统,成为英特尔不能忽视的对手。
FPGA可程序逻辑闸阵列大厂拓朗半导体(Altera),于2013年11月宣布支持OpenPOWER联盟的OpenCL开发套件(SDK)。辉达(NVIDIA)于2014年4月宣布,将于第4季推出的新时代绘图加速器(代号Telsa),在CUDA平行运算程序平台界面中加入对POWER8的支持。
美国能源部(Department of Energy,DoE)于2014年11月16日宣布,将斥资3.25亿美元委托IBM,于2017年建造完成两套全球最快的超级电脑-Sierra和Summit,每一部至少有3,400个计算节点,每一个单一节点就能提供40TFLOPS的浮点运算效能,并透过知名InfiniBand/Network高速网络芯片厂Mellanox的协助,让每个计算节点能用最高速的光纤网络加以连接。
依目前所揭露的数据, Sierrat设计的尖峰计算效能将达到150?300 PFLOPS,是大陆天河2号的3?6倍;Summit设计的尖峰计算效能达100 P FLOPS,是大陆天河2号的2倍。
IBM预计会采用正在研发阶段的第九代POWER处理器(POWER9),预计将会采用14?16nm制程,不低于16颗核心数的先进核心?制程工艺设计,比目前Intel XEON压榨出更高的整数?浮点运算效能,达到单一计算节点40TFLOPS的目标。
至于NVIDIA最新的Volta图形芯片的详细规格仍尚未揭露,不过在同属于样OpenPOWER联盟的技术合作下,Volta将首度内建所谓NVLink直接高速连通技术,不必从外部较慢的PCI-Express 3.0/4.0汇流排-仅16?32GB/S的双向传输带宽,GPU芯片直接以80?200GB/s的超高速互连带宽,直接取用POWER9处理器的快取存储器并互享运算?数据信息。