边缘生成式AI推论运算以70亿个参数量语言模型为主流
DIGITIMES Research观察,边缘AI推论运算应用产品朝三大方向发展,一为x86架构的PC、NB,二为ARM架构的手机、平板,三为ARM/ RISC-V架构的物联网装置。另外,ChatGPT带动生成式AI的热潮,生成式AI发展亦朝边缘装置延伸,而边缘生成式AI推论关键为芯片运算力与大型语言模型(Large Language Model;LLM),目前主流AI PC与手机规格为具备运算力大于15 TOPS(运行生成式AI模型)芯片与70亿个参数量语言模型。
边缘AI推论芯片为运算力重要关键之一,为提升芯片AI运算力,目前以整合神经網絡处理单元(Neural Network Processing Unit;NPU)加速器为主流,PC、NB芯片包括英特尔(Intel)的Core Ultra系列、超微(AMD)的Ryzen 8040 Hawk Point系列与Ryzen 8000G系列等,手机、平板芯片包括高通(Qualcomm)的Snapdragon 8 Gen 3、联发科的Dimensity 9300等,物联网装置芯片包括意法半导体(STMicroelectronics)的STM32MP2、恩智浦(NXP)的MCX N94X、奇景光电的WiseEye 2等。
为符合边缘装置较低运算力限制,各业者积极发展缩减参数量技术,主流的小型语言模型(Small Language Model;SLM)包含Meta的Llama2 13B与7B、Google的Gemini Nano 1 (1.8B)与Nano 2 (3.25B)、微软(Microsoft)的Phi-2 (2.7B)等,目前边缘SLM推论运算以70亿个参数量为主流语言模型。
品牌业者于CES 2024同时展出搭载GPU加速器AI NB 布局边缘AI推论运算市场
2023年AI模型的训练与推论工作皆依赖云端服務器运作,而硬件市场集中开发服務器专用的加速芯片包括GPU (Graphics Processing Unit)、TPU (Tensor Processing Unit)、VPU (Vision Processing Units)等,DIGITIMES Research观察,CES 2024期间多家业者推出AI PC,且英特尔预估2024~2025年将出货约1亿颗AI-capable的处理器,由此可见2024年AI云端推论工作逐渐延伸至边缘装置运作。
品牌业者宏碁、华硕、Dell、HP等,同时于2024年第1季展出具AI推论功能的NB,为提升AI推论的运算力,NB皆配备NVIDIA GeForce RTX 40 Series Laptop GPU及RTX 40 Series GPU。

NVIDIA GeForce RTX 40 系列加速器运算力为194~686 TOPS,借由GPU的高运算力加速AI图像生成、3D渲染、图/影像编辑的工作效率,其中,以加速AI图像生成提升运算效率最高,为使用Apple M2 Ultra芯片运算效率的8倍,可有效达成降低AI运算的时间与功耗。

AI推论运算延伸至边缘PC、NB、手机、物联网装置运作
边缘AI推论运算应用产品朝三大方向发展,一为x86架构的PC与NB、二为ARM架构的手机与平板、三为ARM/ RISC-V架构的物联网装置。
PC、NB领域边缘运算芯片架构以小芯片(Chiplet) CPU或独立GPU为主,为提升芯片AI推论运算力,CPU需整合GPU或NPU,最合适的架构为Chiplet,优点为可整合不同制程与功能的单元、降低芯片设计成本、缩短开发时间、提高设计弹性与良率等。另外,独立GPU架构可借由快速周边组件互连(Peripheral Component Interconnect Express;PCIe)界面与CPU整合,提升PC、NB的AI推论运算力。
手机、平板领域边缘运算芯片架构以系统单芯片(System on a Chip;SoC)为主,受手机、平板硬件空间小与电量有限,NPU以重新布局与线路设计方式,整合在单一芯片上,相较于Chiplet架构芯片尺吋更小、功耗更低,因此SoC成为手机、平板提升AI推论运算力的主流架构。
物联网装置运算芯片以微控制器(Micro Controller Unit;MCU)架构为主,为提升芯片AI推论运算力,目前以模塊系统(System on Module;SoM)与系统级封装(System in Package;SiP)方式与NPU整合,SoM的优点可降低硬件平臺和低端軟件开发成本,而SiP的优点为简化复杂电路系统的设计。

數據来源:DIGITIMES Research,2024/2
芯片运算力提升可加速边缘AI推论应用落地
边缘AI推论运算目前可区分为 x86、ARM、RISC-V三大系统,不同系统产品应用的特性与限制,需搭配的边缘AI推论运算芯片各有差异,x86系统可搭载较高运算力的芯片,而RISC-V系统因受电量限制,搭载较低运算力的芯片,为加速边缘AI推论运算应用落地,指标业者纷推出AI推论运算芯片。

數據来源:DIGITIMES Research整理,2024/2
NB与PC的AI推论运算方面,英特尔于2023年12月14日发布Core Ultra系列芯片,以Chiplet架构整合Arc/ Graphics GPU与AI Boost NPU加速器,可提高AI推论工作效率,同时可于边缘装置进行AI推论运算,并保持隐私与數據安全,而运算力部分,Meteor Lake架构达34 TOPS;2024年底英特尔将推出Lunar Lake架构,运算力可提升至40 TOPS。另外,超微同时间发布NB专用Ryzen 8040 Hawk Point系列与PC专用Ryzen 8000G系列芯片(2024年1月31日上市),整合GPU (Radeon 780M/ 760M)与XDNA NPU加速器,单独NPU运算力达16 TOPS,总和运算力达39 TOPS。
DIGITIMES Research观察,微软可能于2024年下半推出Windows 12系统,系统功能增加许多边缘生成式AI推论应用,可提高商务的工作效率,因此预测AI推论运算第一波市场成长的产品为NB与PC。

數據来源:各业者,DIGITIMES Research整理,2024/2
手机与平板AI推论运算方面,高通于2023年10月24日发布Snapdragon 8 Gen 3芯片,以SoC架构整合GPU Adreno 750与AI加速器Hexagon NPU,运算力达15 TOPS,功能可支持LLM、大型视觉模型(Large Vision Model;LVM) 、 语音識別(Automatic Speech Recognition;ASR)。另外,联发科于2023年11月6日发布Dimensity 9300芯片,相同以SoC架构整合GPU Mali-G720与AI加速器APU 790,运算力达20 TOPS,可支持130亿个参数LLM(最高支持330亿个),另外,文字生成图像部分,可使用稳定扩散(stable diffusion)与低秩适应(Low-Rank Adaptation;LoRA)模型生成GIF格式的图像。
DIGITIMES Research观察,目前已有许多手机品牌业者推出具生成式AI推论运算功能的产品,其中,使用高通 Snapdragon 8 Gen 3芯片的手机包含三星Galaxy S24 Ultra、小米14系列、荣耀Magic 6系列等;另外,使用联发科Dimensity 9300芯片手机包含vivo X100系列、OPPO Find X7系列等。由于手机专用AI推论芯片成本较高,因此,目前手机业者仅导入旗舰系列使用,试图测试边缘AI推论运算的市场接受度,DIGITIMES Research预估,2025年AI推论芯片有机会导入到所有系列手机。

物联网装置AI推论运算方面,应用领域包含智能制造、医疗、零售、家电等,多数物联网装置采用电池为供电来源,另外,体积要求轻薄短小,电池的容量更为受限,因此,目前多数装置使用低功耗的MCU芯片,物联网装置为提升AI推论运算,以附加NPU AI加速器为主,因物联网装置电量的限制,搭配较低的AI运算力(小于2 TOPS)。
意法半导体于2023年5月推出STM32MP2芯片,并开发Cube.AI机器学习库工具免费提供用户使用,另外,该芯片支持8、16bit格式數據运算,且可提高卷积神经网络(Convolutional Neural Network;CNN)与递回神经網絡(Recurrent Neural Network;RNN)的运算效率,目前大部分应用为结合制造设备傳感器,进行如设备异常预测、环境數據的数据分析等。
恩智浦于2022年11月推出MCX N94X系列芯片,并开发提供eIQ Neutron NPU軟件工具包,功能包含模型的训练、建模、微调与增强数据等,另外,可输出至TensorFlow Lite、ONNX、ARM NN系统,运行實時推论引擎,也可作为用户现有模型的推论引擎使用。边缘AI运算应用情境为电脑视觉的目标检测与图像分类,适用于智能制造、医疗等领域等。
奇景光电2023年9月推出WiseEye2 AI HX6538芯片,具备高效率AI运算的ARM Ethos-U55 microNPU,可加速卷积神经網絡(Convolutional Neural Network;CNN)运算,亦支持AI模型权重压缩减小模型大小,利于边缘装置执行复杂的 CNN 推论工作,例如人脸、人体姿势識別等,另外,安全与隐私功能,包含物理不可仿制功能(Physically Unclonable Function;PUF)与信任区(TrustZone)安全性技术,可防止装置數據与AI模型被复制。

指标业者积极发展边缘生成式AI推论运算专用SLM
LLM技术朝多模态大型语言模型(Multimodal Large Language Model;MLLM)与SLM方向发展,MLLM与一般LLM差异在于MLLM可理解和处理多类型數據的输入模式(如文字、图像、音讯等),进而处理较复杂推理任务与问答,而SLM的发展为符合边缘装置低运算力的限制,各业者积极发展缩减参数量技术,目前边缘生成式AI推论运算以70亿个参数量为主流模型。

注2:( )内数字表示参数量。
數據来源:各业者,DIGITIMES Research整理,2024/2
多模态大型语言模型指标业者目前以OpenAI与Google为主,OpenAI于2023年10月推出GPT-4多模态版本,模型架构以8个预训练专业模型整合而成,每个模型具有2,220亿个参数量,整体模型总合为1.776萬億个参数量,GPT-4与ChatGPT (GPT-3.5)差异除文字对话外,还能输入图像由AI解读,且回复能力和正确率超越ChatGPT,另外,GPT-4的API输入Token上限,提高至32K,达32,768个Token,为ChatGPT (4K)的8倍。
Google于2023年12月推出Gemini多模态大型语言模型,模型分为Ultra、Pro、Nano三个版本,Ultra与Pro为大参数量的模型,Ultra参数量达1.56萬億个、Pro达6,000亿个,Ultra为理解、逻辑能力最强的模型,适用于高复杂的多模式任务,而Pro为可用于各种广泛任务的模型,Google Bard聊天机器人则使用此模型。
另外,Gemini多模态大型语言模型已于2024年2月9日开始收费,Ultra每月新臺币650元,并提供2TB云端储存空间、模型可应用于Gmail、Google space等,Pro每月新臺币330元,最多可与5位使用者共享、适用于多臺装置虚拟私人網絡(Virtual Private Network;VPN)使用。

SLM指标业者包含Meta、Google、微软等,Meta于2023年7月19日发表Llama2模型,模型参数量有130亿、70亿、30亿个三种版本,Llama2与前一版Llama的差异包含训练數據和上下文长度增加40%、使用人类意见回馈强化学习(Reinforcement Learning from Human Feedback;RLHF)、可离线使用、高隐私性等;另外,Meta于2023年7月与微软合作,将Llama2以开源方式,放上微软的公有云Azure,使企业、新创公司、研究人员可免费使用。
Google Gemini Nano模型包含32.5亿、18亿个参数量两种版本,模型功能如摘要文字、根据上下文回复问题与语法纠错等,目前Google Pixel 8 Pro手机已可运行Gemini Nano模型,即使无網絡的离线状态下,也可对录制的音档、简报等内容生成摘要,另外,Google于2024年2月与联发科合作,两款新芯片(Dimensity 8300、9300)支持Gemini Nano模型,Gemini Nano在新芯片上运行可发挥最高效能。
微软于2023年12月发表Phi-2模型,以深度学习Transformer演算法为基础的模型,另外,模型训练數據包含科学、日常活动与心理学等,具备高推理与语言理解能力,可应用开发NB与手机生成AI軟件的核心技术使用。

结语
DIGITIMES Research观察,边缘生成式AI推论运算发展关键,受「运算力」、「LLM技术」、「应用与服务」因素所影响,目前「运算力」、「LLM技术」初期发展成熟度已完备,惟「应用与服务」市场发展仍处于探索期,未有杀手级应用与可商业化模式。
「运算力」层面,指标芯片业者与PC、NB、手机品牌业者皆推出可运行边缘生成式AI推论的新产品,目前NB以商务机型为主,DIGITIMES Research认为,边缘生成式AI推论运算可有效提升工作效率,商务用户换购新产品意愿相对高于消费型用户,而手机则先以旗舰机型导入边缘AI推论芯片,功能以文字摘要与图片生成为主。
「LLM技术」层面,为符合边缘装置较低运算力的限制,各业者积极发展缩减参数量技术,目前边缘AI推论以70亿个参数量的SLM为主流,另外,SLM多数为开源方式提供用户使用,其中,Meta开源LLM目的为结合更多人的智能、降低LLM开发门槛、降低调校训练成本等。
「应用与服务」层面,边缘生成式AI处于探索期,各指标业者针对用户的需求、习惯、偏好、价格接受度等因素持续进行市场调查研究,以利推出杀手级应用与可商业化模式,而微软为市场的先行者(first mover),已于2023年11月推出企业版Windows Copilot,微软在具备LLM技术与Windows系统资源的优势下,引领定义AI PC市场规格与发展方向。
若想立刻加入付费"Research"会员,请洽询
客服专线:
+886-02-87125398。(周一至周五工作日9:00~18:00)
客服信箱:
member@digitimes.com (一个工作日内将回复您的来信)
- 追溯至2000年,洞察产业脉动
- 优质报告,助攻精准决策
- 八大主题,23产业频道涵盖
- 七大全球数据库,掌握市场趋势