智能应用 影音
工研院
英特内

CES 2024展前了望:各类AI百花齐放、落地应用关键一年

2024年将是生成式AI在过去的机器学习/深度学习发展基础上,进一步加成、汇流、落地应用的一年。

2024年1月4日,CES主办单位美国消费者科技协会发布名为「What Not to Miss at CES 2024」的新闻稿,揭露CES 2024 四大科技主轴,列名首位的是人工智能(AI),若检视2023年年初同一时间的会前新闻稿,所列举的科技主轴分别是「Automotive and Mobility」、「Digital Health」、「Sustainability」、「Web3 and Metaverse」、「Human Security for All」,AI根本未列入其内。

如此正好反应出由ChatGPT所点燃、突如其来的科技新浪潮,其势头是多麽的「凶猛」,该如何看待2024年的AI发展呢?

叠加在过去AI基础上发展的生成式AI

回头翻阅我过去的演讲简报档案,2017年就在谈「AI的下一步」,探讨从云端延伸到边缘的趋势,这是当时的热门研讨会主题,同样的议题在2023年又成为显学,预期也是2024年的发展热点,这6~7年的时间发生什麽样的改变?

若就终端装置来看,在手机领域,高通(Qualcomm)在2015年发表的Snapdragon 820,芯片内部便配置Hexagon 680 DSP,能执行1,024位元的矢量运算,可作为AI推论引擎之用;在PC领域,英特尔(Intel)于2017年11月发布的Gemini Lake处理器,搭载第一代GNA(Gaussian & Neural Accelerator),作为语音处理与噪音抑制等背景工作负载的低功耗AI加速器。

就边缘运算来看,在生成式AI这波热潮前,包括云端、服务器、网通、产业电脑等业者,都已提供边缘运算解决方案,用以收集与处理应用场域端的数据,尤其这几年5G的普及与2B通讯服务市场重要性的提升,更推波助澜边缘运算的发展。

在演算法与应用方面,传统的机器学习如回归模型或SVM(Support Vector Machine)已普及多年,近10年主要基于卷积神经网络(Convolutional Neural Network;CNN)的特徵萃取/物件识别技术兴起,从人脸识别、人员管理、瑕疵检测、医学影像判读、到自动驾驶与交通监控等各类应用均已逐步普及。

在AI导入的效益上,根据McKinsey 2022年12月发布的AI Survey报告〈The state of AI in 2022—and a half decade in review〉,在其受访企业中,导入AI的比重从2017年的20%,提高到2022年的50%;在效益上,2021年调查结果显示,降低成本最明显的领域来自供应链管理,有52%的受访企业表示受惠,而促进业绩成长的最明显领域来自行销/销售领域及产品/服务开发领域,各有70%的受访者表示有实质效益。

2024年的AI发展,并非建立全新的基础建设与生态系,而是在此已具备云端—边缘—终端协同发展及各类落地应用的基础上,再进一步推动以大型语言模型(LLM)为主轴之生成式AI的应用落地。

生成式AI发展新态势

在AI发展上,有几个从2023年延续至今方兴未艾的趋势。

从整体生态系来看,LLM软件与服务堆叠(stack)可分为3层,底层是各大模型及其集散平台(如GitHub与HuggingFace);其上一层是各类LLM开发工具,如prompt工程与管理工具;最上层是包括文章写作助理、程序撰写助理、内容与创意生成、查找助理等终端应用程序。

ChatGPT带动基于LLM之生态系的蓬勃发展,接下来的发展应会类似iOS与Andorid生态系的发展般,Open AI/微软(Microsoft)与Google会各有其生态系,而现以Meta LLaMA系列为主力的开源社群也会有其生态系,从2023年11月Open AI开发者大会推出GPT Store及定制化GPT「GPTs」,及2023年12月Meta、IBM与英特尔、超微(AMD)及Linux等公司与机构合组开源AI联盟,已可窥见升温的生态系竞逐态势。

从模型来看,可见快速走向多元分化的趋势,这包括针对泛用需求或特定工作任务、针对云端/边缘/终端不同场景的模型、或针对不同垂直领域或语系进一步强化等态势。接下来这些在基础模型上百花齐放的衍生模型,甚至可能如AppStore般发展出Model Store的商业模式。

例子之一,是基于Meta 开源的LLaMA 2,已衍生出包括中研院、台智云及多个国内大陆业者与机构进行中文优化的版本。例子二是华为云2023年7月发布针对产业需求的盘古大模型三代,该系列模型包括「5+N+X」3层架构,最底的L0层包括自然语言、视觉、多模态、预测、科学计算等五个基础大模型;中间的L1层包括政务、金融、制造、制药、矿冶、铁路、气象等N个产业大模型;最上的L2层则是X个细化场景模型,例如输送带异物检测、台风路径预测等。

另一趋势是生成式AI已逐渐从大语言模型朝向多模态模型发展。过去的多模态大模型作法是以既有的语言模型或是经预训练可提取语意特徵的图像模型为基础,再使用多模态训练数据增加新的网络层训练,建立多模态模型。例如GPT-4除文字外,也可接受图像输入便是采此作法。

Google在2023年12月所发布的Gemini,则是从一开始便使用多模态数据进行联合训练所建立的大模型,可无缝理解与推论各种模态的输入内容并进行输出,无论是文字、程序码、声音、图像、或视讯内容。当大模型成为各家网络/云端巨擘及众多新创的主要战场时,可预见接下来会有更多原生多模态模型问世。

科技硬件业最关心的则是模型小型化与AI on Device的趋势。Meta 于2023年7月公布的LLaMA 2除了70B版本外,也包括已可搭载到终端装置的13B与7B两版本。

法国于2023年5月成立的独角兽新创Mistral AI,在2023年9月发布开源的Mistral 7B,主打仅7.3B的参数模型,宣称在所有基准测试结果优于Llama 2 13B,而Google的Gemini Nano版本则是先「蒸馏」大模型,然后进行4-bit 量化的微型模型,针对低存储器容量与高存储器容量终端装置,区分为1.8B与3.25B两个版本,且预告将首先搭载于Google的Pixel 8 Pro手机上。

AI on Device的理想是走向AI Everywhere / AI on Every Device,2024年可说是生成式AI落地到各类终端的首年,全球智能手机销售的高峰在2017年,约达14.2亿支,而PC销售高峰在2011年,约有3.6亿台规模。近年除因疫情红利,在2020~2021年创下高成长销售佳绩外,其余时间都处于市场成熟几无成长的状况,AI PC与AI手机成为寄望所在。

在物联网装置上,先前tinyML基金会定义tinyML规格,希望在MCU平台上,使用mW等级以下的超低功耗,在Always-on及电池供电的边缘装置执行边缘运算。如今包括像是智能音箱、汽车智能座舱,或是各类机器人等,也都因生成式AI带来功能与应用的提升,有机会进一步刺激市场需求。

既有硬件产品外,也诞生一些基于生成式AI的新兴硬件产品,如由美国新创业者Humane所推出的无屏幕穿戴式AI装置AI Pin、另一家美国新创Rewind AI推出挂脖的Rewind Pendant装置。在台湾,募资平台上也有Plaud Note智能录音卡的项目,运用ChatGPT,将录音内容转成逐字稿并整理重点。

总之,2024年将是生成式AI在过去的机器学习/深度学习发展基础上,进一步加成与汇流的一年,也是各种硬件、软件与服务大规模教育市场与测试市场水温的一年,着重在建立早期采用者的族群与市场规模,是生态系演化、业者高速竞合,期待、宣扬、亮点与失落交杂的精彩一年!

DIGITIMES副总经理。美国壬色列理工学院(RPI)电机硕士暨台湾大学国际企业所博士候选人,曾带领DIGITIMES研究中心,并担任多个政府及企业委托之研究顾问专案主持人,关怀多变局势下的台湾产业发展之道。