GPU与辅助处理器的运算应用

DIGITIMES企划
2014/12/25 00:00
分享

AMD Opteron、Intel XEON均提供16？18核的单一处理器芯片。Intel/AMD

超级电脑？HPC高运算效能系统，从过去单核心硬件最佳化架构，朝向多核多系统丛集平行化发展，更搭着异质性运算架构(Heterogenous System Architecture；HSA)的顺风车，将着重序列纯量运算的CPU与平行矢量运算的GPU做融合，或导入着重浮点运算的图形处理器(GPU)作为辅助处理器，以提升HPC在平行运算的能力…

超级电脑处理器多核？矢量化

AMD以R290X双核心芯片＋水冷套件，打造顶级Radeon R9 295X2显卡。Source:AMD

IBM与NVIDIA携手合作，以下一代POWER9处理器+Volta GPU，打造超级电脑的计算节点的运算中心。Source: IBM/NVIDIA

超级电脑？HPC高运算效能系统，其处理器芯片，均以先进制程来微缩线路间距，采取多达12？18核心+平行多线程(Symetric Multi-Thread；SMT)的64位元微架构设计，并且整合内嵌式高速存储器，作为高速快取存储器与对外存储器汇流排的高速缓冲设计。并采用像MCP(Multi-Chip Package)多芯片封装、3D立体堆叠(3D Stacks)与2.5D中介板(2.5D Interposer)等先进封装技术。

像超微(AMD) 16核Opteron6274、Opeteron 6370P(Warsaw)、IBM Power8系列、源自于Oracle/SUN的FT-1500(SPARC V9)、Fujitsu的SPARC64 X+、英特尔(Intel)XEON E3/E5/E7处理器等。

英特尔于2014秋季IDF论坛中，首度发布以22nm制程Haswell-EP核心架构打造的XEON E5-2600处理器，使用LGA 2011-3脚位设计最顶级版本核心数高达18核、36线绪设计，内建45MB L3快取存储器、内建DDR4-2133存储器，最大存储器容量增加为1.5TeraBytes，同时内建2条超高速QPI汇流排(带宽达9.6GT/s)。

IBM则于ISSCC’13国际固态电子电路研讨会上，正式发表POWER8处理器。采先进的22纳米SOI绝缘矽制程集结15道金属电路层打造，POWER8处理器采6？12核心设计，矽晶电路面积为650mm2，运作时脉高达4GHz；每个核心可平行执行8线绪(8 Threads)；具备32KB L1指令快取、64KB L1数据快取与512MB第二阶快取存储器容量。

以高速96MB eDRAM作为第三阶快取存储器，并预留外接128MB eDRAM第四阶快取架构。处理器内建PCIe 3.0汇流排控制电路，双向传输带宽达32GB/s。并提供协同加速处理器界面(Coherent Accelerator Processor Interface；CAPI)，使NVIDIA Tesla/Volta等GPU/协同处理器芯片直接连通来做协同运算。

异质性GPU？多核芯片协同平行化运算

近年来超级电脑或HPC高效能运算系统，搭着异质性运算架构(Heterogenous System Architecture；HSA)的顺风车，将着重序列纯量运算的CPU与平行矢量化运算的GPU做融合(如超微APU)，或导入着重浮点运算的图形处理器(GPU)作为辅助处理器，以提升HPC在平行运算的能力。

而超微(AMD)、辉达(NVIDIA)等高端绘图显示卡，由于其绘图处理器也具备矢量级、平行化多管线SIMD浮点运算能力，自然也成为建构云端？HPC高效能服务器的辅助涡轮引擎。

英特尔(Intel)于2013年1月，正式推出XEON Phi协同处理器5110P(代号Kinght Corner)，外型类似可插在PCI-Express x16插槽的独立绘图显示卡；内部整合了采22nm制程，60个改良型P54C(Pentium)核心的处理器芯片，以及8GB GDDR存储器，但对外汇流排规格仅支持到PCI Express 2.0规格，x16设计可提供双向8GB/S互连带宽，一套辅助处理器？界面卡可提供1,010GFLOPs(1TeraFLOPS)万亿次浮点运算，一套机架式服务器理论上安插1？8张XEON Phi协同处理器卡，实际上因受到CPU？芯片组PCI Express汇流排驱动线道总数限制，一般约3？4张已经是上限。

大陆的天河2号，则采取每一个节点以两颗22纳米制程、Ivy-Bridge-EX架构的2.2GHz XEON E5-2692 12核处理器，搭配3套第二代架构(Knight Landing)的8GB GDDR、1.1GHz XEON Phi31S1P协同处理器，此时XEON Phi内建达57核心，单协同处理器能提供1TFLOPs的浮点运算效能。

AMD在2013年Q4 出货Hawaii架构的Radeon R9 290X及290绘图卡，经过两季后，于2014年4月推出具备16GB GDDR5存储器，针对专业绘图市场所使用的FirePro W9100，单卡提供FP32 5.24TFLOPS(或FP64 2.62TFLOPS)；以及8GB GDDR5、具备水冷架构的双核心Radeon R9 295X2显示卡(代号Vesuvius)。

卡上直接内建两颗28nm制程、1,018MHz的Radeon R9 290X绘图芯片，共提供5,732个串流处理器核心，以及FP64/FP32 5.733TFLOPs浮点运算效能；R9 295X2系统设计功耗(TDP)高达500W，为此AMD导入美商Asetek设计的一体式水冷系统来解决散热问题。

对外界面则支持PCI Express 3.0规格，函式部分支持OpenCL、C++、AMP、DirectCompute 11与微软DirectX 11.2，以及AMD自家开发的GCN原生界面Mantle API。

辉达(NVIDIA)于2014年10月19日正式发表基于第十代NVIDIA GPU微架构－Maxwell (GM204)的全新GeForce GTX 980绘图卡。GeForce GTX 980芯片具备52.2亿晶体管，核心时脉采1,126MHz设计，可超频至1,216MHz，内部塞入多达2,048个CUDA处理核心；GPU核心内建4个64Bit存储器控制器，存储器汇流排宽度为256bit设计，单精度浮点运算每秒可达5万亿次，而倍精确度浮点运算则达到2.5万亿次。

而在11月超级电脑展(SC14)中，NVIDIA正式推出使用两颗GK210绘图显示核心所组成的新款高端运算卡Tesla K80，其浮点运算效能可达每秒 8.5万亿次，倍精确度浮点运算达2.9万亿次，堪称全世界最快的运算卡产品，同时其CUDA加速程序界面也纳入对IBM POWER8处理器的支持。

IBM Power8/9与NVDIA Tesla/Volta携手合作 HPC威力再现

由IBM华生研究中心掌舵的效能优化增强RISC架构(Performance Optimization With Enhanced RISC)POWER处理器，曾是各种高效能工作站、服务器与嵌入式系统的运算核心，从1990年2月用于RISC System？6000工作站？服务器，1998年POWER3、POWER4处理器，全面性实作64位元POWER指令集。

2004年5月以130纳米SOI绝缘矽制程，以4颗多芯片构装(Multi-Chip Module；MCM)打造双核心？平行双线绪的POWER5处理器而声名大噪。2007年65纳米SOI制程POWER6处理器首增加VMX指令集，时脉推进到4.7GHz。2010年IBM推出 8核心POWER7，以略降为3.2GHz时脉，每核心4线绪与4颗实体矽芯片的MCM封装，达成一颗实体处理器芯片能执行16个线绪的平行运算能力。

POWER架构曾是苹果PowerMac、PowerBook系列电脑采用的中央处理器，也曾授权矽智财IP电路，成为Nitendo WII、SONY PlayStation 3、Microsoft Xbox360的处理器中的图形？游戏加速运算电路。

2013年8月IBM与Google、Mellanox、NVIDIA 及泰安电脑(Tyan)宣布合组OpenPOWER联盟，以IBM Power处理器架构的平台技术对外开放，IBM将投入10亿美元在Linux和POWER平台开源(Open Source)科技创新上，协助客户部署更先进的智能运算系统，成为英特尔不能忽视的对手。

FPGA可程序逻辑闸阵列大厂拓朗半导体(Altera)，于2013年11月宣布支持OpenPOWER联盟的OpenCL开发套件(SDK)。辉达(NVIDIA)于2014年4月宣布，将于第4季推出的新时代绘图加速器(代号Telsa)，在CUDA平行运算程序平台界面中加入对POWER8的支持。

美国能源部(Department of Energy,DoE)于2014年11月16日宣布，将斥资3.25亿美元委托IBM，于2017年建造完成两套全球最快的超级电脑－Sierra和Summit，每一部至少有3,400个计算节点，每一个单一节点就能提供40TFLOPS的浮点运算效能，并透过知名InfiniBand/Network高速网络芯片厂Mellanox的协助，让每个计算节点能用最高速的光纤网络加以连接。

依目前所揭露的数据， Sierrat设计的尖峰计算效能将达到150？300 PFLOPS，是大陆天河2号的3？6倍；Summit设计的尖峰计算效能达100 P FLOPS，是大陆天河2号的2倍。

IBM预计会采用正在研发阶段的第九代POWER处理器(POWER9)，预计将会采用14？16nm制程，不低于16颗核心数的先进核心？制程工艺设计，比目前Intel XEON压榨出更高的整数？浮点运算效能，达到单一计算节点40TFLOPS的目标。

至于NVIDIA最新的Volta图形芯片的详细规格仍尚未揭露，不过在同属于样OpenPOWER联盟的技术合作下，Volta将首度内建所谓NVLink直接高速连通技术，不必从外部较慢的PCI-Express 3.0/4.0汇流排－仅16？32GB/S的双向传输带宽，GPU芯片直接以80？200GB/s的超高速互连带宽，直接取用POWER9处理器的快取存储器并互享运算？数据信息。

关键字

GPU 超级电脑

加入已选取到「关键字追踪」什麽是「关键字追踪」

商情专辑－高速运算﹧高速电脑专辑