ARM 2023全面运算解决方案与新一代GPU架构 推动移动运算视觉体验升级 智能应用 影音
工研院
member

ARM 2023全面运算解决方案与新一代GPU架构 推动移动运算视觉体验升级

  • 李佳玲台北

由左到右分别为:ARM终端产品事业部产品管理总监Andy Craigen、ARM资深副总裁暨终端产品事业部总经理Chris Bergey、ARM CPU产品管理资深总监Stefan Rosinger。ARM
由左到右分别为:ARM终端产品事业部产品管理总监Andy Craigen、ARM资深副总裁暨终端产品事业部总经理Chris Bergey、ARM CPU产品管理资深总监Stefan Rosinger。ARM

随着智能手机已成为串流媒体的主要装置,加上包括AR、3D手游、以及愈来愈多生成式AI智能技术的兴起,消费者对沉浸式体验的追求为移动运算平台催生了比以往更高、更复杂的运算需求。为了满足各式应用需求,ARM日前推出2023全面运算解决方案(TCS23),藉由效能与效率的进一步提升,再度突破了ARM运算平台的能力极限。

全面运算解决方案(Total Compute Solutions;TCS)是ARM专为适用于移动设备的SoC设计打造的系统级解决方案,其中涵盖了CPU、GPU硬件IP、互连与系统IP技术,以及软件和开发工具等。在新发布的2023全面运算解决方案(TCS23) 中,最主要的亮点包括:推出基于全新第五代GPU架构的旗舰级Immortalis-G720 GPU、效能最强大的ARMv9 Cortex运算丛集系统,以及增强的系统最佳化技术,将持续驱动移动设备的创新应用。

TCS23是ARM专为适用于移动设备SoC设计打造的系统级解决方案。ARM

TCS23是ARM专为适用于移动设备SoC设计打造的系统级解决方案。ARM

Cortex-X4可提供比Coretex-X3更佳的效能与效率。。ARM

Cortex-X4可提供比Coretex-X3更佳的效能与效率。。ARM

DSU--120新增了不同的电源模式,可进一步降低漏电流。。ARM

DSU--120新增了不同的电源模式,可进一步降低漏电流。。ARM

推升数码体验 GPU扮演日益重要的角色

ARM专注于GPU开发已有多年时间,从现今已被广泛运用的Mali GPU,到2022年首度推出支持硬件光线追踪技术的Immortalis-G715旗舰级GPU,把移动GPU的效能推升到新的层次。

ARM资深副总裁暨终端产品事业部总经理Chris Bergey表示,对手机设计来说,GPU扮演着日益关键的角色,不管是提供出色的视觉体验与提升机器学习(ML) 运算,都需要更兼具效能与效率的GPU。

ARM终端产品事业部产品管理总监Andy Craigen补充说,提升绘图效能对手机设计非常重要,ARM已投入大量资源建构绘图平台。大家都知道绘图功能非常耗能,即使对桌上型电脑和游戏机来说也是如此。所以,ARM的重要任务是要吸引开发社群,让他们相信在手机上也能实现近似在复杂的PC上的视觉体验,进而愿意将其游戏移植至Android移动绘图平台。

把光线追踪技术导入移动设备

Chris Bergey指出,自2022年推出Immortalis-G715以来,不管在效能、功耗、面积(PPA)各方面都获得了业界的正面回响,开发社群对于光线追踪技术在手机上的应用也展现出高度兴趣。

要在手机上实现真实3D影像,如何兼顾效能与功耗需求是一大挑战。Andy Craigen表示,「由于把PC用的光线追踪技术直接搬到移动平台上不可行,因此ARM花了很多时间分析光线追踪技术,了解那些功能可带来最佳效果,并满足手机的功耗与芯片面积要求。从2022年首度推出Immortalis-G715以来,我们就展开这个过程,也将会持续发展。」

在2023年初举行的GDC大会上,ARM与联发科技、腾讯游戏共同展示了应用光线追踪技术的解决方案。此外,ARM亦积极推动生态系统对此技术的了解,协助他们利用各种资源来开发游戏,包括Unity等游戏引擎的支持就绪,及其免费提供的ARM Mobile Studio开发工具。

为了展示如何建构光线追踪技术,ARM台湾团队也尝试自行开发游戏。「我们希望借此展现出Immortalis平台支持3D绘图的可行性与出色的视觉效果,以及如何能在手机的功耗预算内实现」,Chris Bergey说。

推出全新第五代ARM GPU架构

为了进一步推升GPU效能,实现更加沉浸的视觉体验,ARM日前宣布推出第五代GPU架构,以及基于此架构的全新Immortalis-G720。这是 ARM 历来效能与效率最高的GPU,与前一代产品相比,效能与效率提升了 15%,而面积仅增加2%,同时存储器带宽使用量更大幅降低了40%。

第五代GPU架构的主要特点是导入了延迟顶点着色技术 (Deferred Vertex Shading;DVS),透过重新定义GPU中的数据流,扩展GPU核心数量,最高可达16颗核心,以实现更高效能。

Chris Bergey解释说,存储器存取与数据移动是影响GPU耗能的主要原因。移动绘图平台与桌上型电脑的根本差异是在带宽使用效率。因此,藉由导入DVS技术,能显着降低带宽使用以及对外部DRAM的存取,提高每秒显示画面张数(帧率),使手机也能支持更复杂的绘图工作负载。

「游戏只是第五代GPU架构的其中一个应用市场,3D视觉还可为移动设备带来更多的应用商机,像是AR、电脑辅助绘图(CAD)设计等。」

推动AI与机器学习应用于智能手机上

GPU效能的提升对于增强手机的AI处理能力也至关重要。Chris Bergey表示,对移动设备来说,ARM透过TCS23提供强大、必要的基本运算架构,而客户能自行在其SoC中针对NPU进行差异化设计。而ARM也会透过与夥伴紧密的合作关系,持续提供相关的支持。

他强调,AI需求透过异质运算来提高运算效能,其中涉及了ML任务、推论任务、功耗敏感任务等不同的运算需求。其设计挑战在于,需协助开发人员对AI进行最佳的编程,利用最适切的处理器来执行特定任务。对ARM来说,不只是硬件架构的提升与就绪,也需要提供丰富的软件、应用程序支持,并协助客户最具效率地把AI编程在通用ARM移动运算平台上,才能真正解决问题。

随着近来生成式AI等全新的智能应用快速兴起,ARM亦积极推升手机的AI处理能力,每两年增加一倍。此外,透过其开源软件程序库,不断提升ARM IP的机器学习能力,以便支持开发人员充分运用AI与ML工作负载的优势。Android平台的Google应用程序已在使用ARM NN与ARM Compute Library,目前拥有超过一亿的每日活跃用户,让开发人员得以运用ARMv9 Cortex-A CPU与ARM GPU,将其在ML工作负载的执行最佳化。

兼顾效能与效率的Cortex-X4核心

在CPU方面,ARM推出第四代Cortex-X 核心Cortex-X4,这是ARM历来速度最快的CPU,与Cortex-X3相比,效能提高了15%,同时,在相同的制程下,与Cortex-X3相比,全新的省电微架构可降低功耗达40%,而面积仅增加10%,是Cortex-X系列中每毫米效能最高的。

ARM CPU产品管理资深总监Stefan Rosinger表示,从图中可以看出,Cortex-X4与Cortex-X3的功耗对应效能曲线,明显地向右移动。这意味着,在相同的效能下,Cortex-X4可比Cortex-X3带来显着的功耗减省。或是换句话说,在相同的功耗下,可提供更高的效能。

「Cortex-X系列核心虽然是基于『效能优先 』(performance-first)』的理念来设计的,但对手机有限的功率预算来说,推升效能的同时,仍须兼顾效率,才能为客户带来真正的价值。不只功耗,Cortex-X4也提升了面积效率,所以能以相同的面积,提供更高的效能,这是Cortex-X4核心设计上的重要考量。」

Chris Bergey补充说,手机有一定的功率预算,因此必须在兼顾功耗的情况下,来推升效能。藉由高效率的Cortex-X4,客户能够把相同功耗下带来的效能增益,运用在AI等其他的更多运算上。另外,此曲线是在iso-process同频比较条件下的结果,若采用N4或N3制程,取得的效率将更显着。

此外,Cortex-X4可支持2MB的L2快取,最多可扩展至14个核心丛集,以及32MB的L3快取,可提供绝佳效能与多种弹性配置来满足客户不同应用市场的需求。除了旗舰级智能手机之外,更高的效能与效率也将能帮助Windows-on-ARM笔记本电脑市场的进一步扩展。

系统最佳化技术实现强大的运算丛集系统

除了推出新款CPU与GPU之外,TCS23的另一个重点是提供增强的系统最佳化技术,以提升整体效能。

Chris Bergey表示,开发GPU时,ARM也把CPU以及系统的运作效能纳入考虑。以新推出的Immortalis-G720为例,可与CPU共同使用最高达32MB的系统级快取,根据工作负载来进行最佳配置。目的是使数据都在局部取得,仅量不使用外部DRAM,以降低GPU功耗。

在CPU丛集方面,ARM已将其 DSU(DynamIQ Shared Unit)升级至DSU-120。除了上面提到的14核心扩展性与32MB系统快取之外,另一个重点是可提供更多不同的电源模式。

Stefan Rosinger表示,在手机中,会有Cortex-X、Cortex-A不同的核心,因此可根据不同的工作负载,开启或关闭特定核心的电源。若以核心电源全开启为基准,可以看到不同使用情境下,电源节省的效益。DSU-120新增的电源模式,可以有效节省芯片的漏电流。

「由于SRAM的微缩脚步跟不上逻辑元件,尽管为了提升效能我们增加了L3快取的容量,但相对的,对功耗也带来的新的要求。因此,漏电流的节省也成为不可忽视的议题。」

展望未来 迈向异质整合时代

在未来几年内,ARM将继续开发下一代包括Krake GPU和Blackhawk CPU等关键IP,以满足合作夥伴对于运算与绘图效能不断成长的要求。

然而,随着芯片即将面临2纳米制程的微缩极限,朝向3D堆叠与先进封装技术来延续半导体技术发展,已成必然趋势。对于针对SoC设计者提供IP的ARM来说,会带来那些影响与转变呢?

Chris Bergey表示,当制程微缩趋近极限时,必须对效能、功耗与面积的权衡有更仔细的考量,才能顺应制程推进,协助客户取得最大效益。随着半导体产业进入3D堆叠与先进封装技术时代,就要以系统角度来思考并区隔设计,为客户提供最佳的解决方案,例如把SRAM停留在成熟制程,运算核心采用先进制程等。在这过程中,与台积电的密切配合至关重要。藉由深入了解他们的制程技术,才能就此开发出更适切的解决方案。

他指出,采用异质整合的先进封装元件未来也将进入移动市场。ARM将顺应此趋势,持续在「超越摩尔定律(More than Moore)」时代胜出。市场对于运算的需求时无止境的,而以ARM为基础的未来仍将充满无限可能性!