3D图形运算与绘图芯片
10多年来,NVIDIA与AMD双方在3D图形处理效能与画质的竞逐,从双显示卡、三显示卡甚至四显示卡平行处理,强热散热风扇甚至水冷套件的导入,简直像是F1赛车界的集双方研发与游戏厂商支持做竞逐。
当2014年新一代的顶级显卡像AMD Radeon R290X、R295X2,到NVIDIA新强打的GeForce GTX 980显卡的推出,意义不只是3D效能评分的破万或成长几倍,而是它们带动从游戏人物的肤色、神韵,周遭场景与物体的色泽、光迹反射已进逼好莱坞电影等级,这也正是独立显卡即便价位破万甚至好几万,仍能获得游戏狂、电竞玩家的青睐,成为引领个人电脑影像处理能力不断进化的火车头。
More 3D than Moore 旗舰显示卡时代交替
自AMD于2006年购并ATI并取得其绘图芯片技术以来,打造出融合图形处理器(GPU)与中央处理器(CPU)异质类架构(Heterogeneous System Architecture;HSA)的加速处理器(Accelerated Processing Unit;APU)以主攻桌机、笔记本电脑与嵌入式市场之外,对于在绘图与游戏效能级市场颇有名号的Radeon系列所需的独立型绘图卡(Graphics Card)仍积极经营,并以低功耗适切效能的特性,在笔记本电脑市场占先,还抢下苹果Mac Pro的大单。
AMD在2013年Q4出货Hawaii架构的Radeon R9 290X及290绘图卡,经过两季后,于4月进一步推出针对专业绘图市场所使用的FirePro W9100,以及针对发烧游戏玩家打造的顶级Radeon R9 295X2显示卡(代号Vesuvius)。
前者率先提供16GB GDDR5绘图存储器,创下业界最大绘图存储器容量,充分发挥出Hawaii的512bit汇流排架构,适用于4K UHD (3840x2160)实时绘图?影像处理的专业绘图环境,最多可以支持6个4K显示器串接的工作场合。
Radeon R9 295X2游戏绘图卡则是以技术展示为主的旗舰限量级产品,提供究极级的梦幻规格。卡上直接内建两颗28nm制程、1,018MHz的Radeon R9 290X绘图芯片,每颗R290X芯片集结62亿颗晶体管、内建2,816个串流处理器(Stream Processor),以及独特的512bit绘图存储器汇流排架构。
双芯片相当于两张Radeon R9 290显卡做CrossFire(双卡串连),具备5,732个串流处理器核心,卡上设计PLX PEX8747 PCI-E Gen3(8GT/s)高速切换芯片,将2x4GB GDDR5(共8GB)存储器,各自以320GB/s存储器带宽连接到R290X绘图核心并协同运算。
函式部分支持OpenCL、C++、AMP、DirectCompute 11与微软DirectX 11.2,以及AMD自家开发的GCN原生界面Mantle API。对外界面部分支持PCI Express 3.0规格,显示器连接部分一组Dual-Link DVI界面以及4组mini-DisplayPort 1.2界面,建议售价为1,499美元,零售代理报价约新台币5万元。
R9 295X2系统设计功耗(TDP)高达500W,为此AMD特别导入了美商Asetek设计的一体式水冷系统,来解决绘图芯片的散热问题。显示卡供电设计仍采用2组8pin PCI-E连接头供应,据AMD表示以一组8pin PCI-E连接头可提供12V、最大30A(360W)的输出,两组8pin PCI-E连接头足以因应,唯一限制是单12V输出得28A,双12V合并输出得50A。
已有厂商改设计成4组8pin PCI-E连接头的版本来运行Radeon R9 295X2,但仍建议至少选购600?800W的电源供应器,才能应付这个超级吃电怪兽。
而NVIDIA随即在10月19日正式发表基于第十代NVIDIA GPU微架构-Maxwell(GM204)的全新GeForce GTX 980、GeForce GTX 970绘图卡。
这一批仍以台积电28nm制程制作,GeForce GTX 980芯片具备52.2亿晶体管,核心时脉采1,126MHz设计,可超频至1,216MHz,内部塞入多达2,048个CUDA处理核心;GeForce GTX 970芯片的核心时脉为1,050MHz,可超频至1,178MHz,具备了1,664个CUDA处理核心。
两者GPU核心内建4个64Bit存储器控制器,图形存储器汇流排宽度为256bit汇流排设计,L2快取容量增加为2MB以增加快取命中率,同时ROP着色处理单元进化至第三代高压缩比的像素区块压缩引擎,为此GM204核心较上一代节省约25%存储器带宽。
为了显示出进逼照片、电影等实境摄录影的游戏光影效果,GeForce GTX980/970首度支持像素全域照明(Voxel Global Illumination;VXGI)技术,结合全新软件运算法及硬件加速运算,以实时方式执行计算每一个物体表面针对某个直接光源与间接反射光源的着色渲染效果,取代过去须靠游戏预先计算间接照明反射的呈现效果,游戏人物、物体表面与场景之间会随着人物移动而有不同直接与间接光迹反射的实时光影效果。
GeForce GTX980/970最大存储器容量为4GB GDDR5,并且支持Dual-Link DVI、HDMI 2.0以及3个Display Port 1.2显示埠界面设计;支持4K UHD(3840x2160)、4K Cinema(4096x2160)甚至5K(5120x3200)显示器支持能力。
而GeForce GTX980/970亦支持DSR动态超高分辨率,将游戏画面的画质以4K等级实时处理后,再降低至符合使用者屏幕的Full HD 1920x1080p原生分辨率显示,即便在Full HD显示器上,仍可呈现优于原Full HD分辨率着色处理的游戏影像。
第十代Maxwell(GK204)核心较第九代Kepler (GK110)核心更注重能源效益。相较上代 Kepler GPU微架构绘图卡,全新GeForce GTX 980效能相当于前两代GeForce GTX 680的两倍,也比GeForce GTX 780快上50%。
但系统设计功耗仅165W,远低于GeForce GTX 780的250W以及GeForce GTX 680的195W,折算其每瓦浮点运算效能值高达30GFLOPS。推荐的电源供应器至少400?600W。GeForce GTX 980、970售价分别为549、329美元。
移动设备绘图芯片效能大跃进
在移动设备像是x86变形平板、ARM架构的平板与智能手机,过去受限于功耗与移动设备的体积,其内部使用的图形芯片,在3D影像处理与效能上总是乏善可陈;但是在近年来NVIDIA与AMD竞逐于绘图芯片效能王座的征战下,加上既有的Imagination (原PowerVR团队)、ARM的Mali GPU等竞逐,也是显得热闹滚滚。
NVIDIA针对高端游戏?电竞笔记本电脑,所推出的GeForce GTX 880M移动绘图芯片,委托台积电以28nm先进制程制作,运作频率达954MHz;采最新的Kepler核心架构,具备1,536个渲染单元(Shader)与128个材质贴图单元(TMU)设计,具备256位元宽度GDDR5存储器汇流排设计,最大绘图存储器容量为8GB,可以支持到HDMI 2.0/eDP 1.2 (3840x2160 4K UHD)分辨率。
超微(AMD)在2014年亦针对高端游戏?电竞笔记本电脑,推出Radeon R9 M290X移动独立显示芯片,时脉为850MHz,采台积电28nm制程,具备1,280个渲染单元(Shader)、80个材质贴图单元及256位元GDDR5存储器汇流排设计,最大绘图存储器容量为4GB。支持DirectX 11.2、OpenGL 4.3,以及HDMI 2.0/eDP 1.2 (3840x2160 4K UHD)分辨率输出。
Intel从2013年发表的Haswell第四代处理器(Core i3-4xxx、i5-4xxx、i7-4xxx),与2014年推出的Haswell Refresh处理器,以最顶级的Intel Iris Pro 5200等GPU,其采取CPU内建GPU的必要电路,同时外面加上128MB eDRAM,以2.5D中介板(2.5D Interposer)方式封装成单一芯片外观,可支持DirectX 11.1、OpenGL 4.2,并支持DP 1.2与HDMI 1.4等规格,2D/3D绘图效能比前一代提升7倍,也威胁到中低端笔记本电脑、变形平板甚至独立显示卡的市场。
在ARM架构部分,安谋(ARM)自家的Mali-T76x GPU,则已推进到16核心GPU加4K显示能力,目前有台湾联发科(MTK)的MT6732、MT6752处理器,大陆瑞芯微电子(Rockchip)的RK3288处理器所采用。
NVIDIA于2014年公布代号Logan(金钢狼)的Tegra K1处理器-以28nm制程,Kepler绘图处理器核心技术,采192个CUDA(shader)渲染核心加上2.3GHz4核ARM Cortex-A15、单核Cortex-A7所打造的Tegra K1处理器,提供惊人的3D视觉运算新体验。小米平板宣布采用Tegra K1图形处理芯片,以地球最快速的3D平板为诉求,抢占全球的目光。
像苹果(Apple)在2014年9月下旬发表iPhone 6/6+手机,其所采用的A8处理器,就采用来自Imagination授权的6核心PowerVR GX6650的绘图IP技术,一样具备192个的渲染单元,以及多达384个32位元浮点运算单元,其工作频率为300MHz,理论浮点性能高达115.2GFLOPS,跟NVIDIA Tegra K1挑战。