善用MLOps与AutoML打通企业AI任督二脉 智能应用 影音
EVmember
ST Microsite

善用MLOps与AutoML打通企业AI任督二脉

  • 郑斐文DIGITIMES企划

根据一份AI趋势报告显示,逾57%台湾企业为因应疫情冲击、积极表达迫切导入AI的意愿,以增强灵活应变能力,将外在环境影响降至最低,进而提高组织效率、降低成本、提升客户忠诚度或增加利润。

其余值得留意的重要发现,包括近六成台湾企业的AI成熟度落在Level 2到3范畴,开始利用案例检验数据、建立PoC,甚或部署预算、选定工具、解决方案与夥伴;明显摆脱早先开始准备导入AI、建立数据基础架构的Level 0到1层次。在技术方面,运用比例较高者依序为机器学习(ML)、电脑视觉/图像识别、深度学习(DL)、自然语言处理/理解/生成(NLP/NLU/NLG)、深度神经网络、异常侦测、数据标注等。

显而易见,现今企业愈来愈清楚导入AI可以带来的效益,像是医师透过AI分析医疗影像与病历数据,加速发现病患的病灶,以便及早治疗、挽回生命。又或者,制造工厂利用Edge AI确认机台运行状态,一旦察觉异常,就立即发出警讯,以利工厂尽速排除障碍,避免产线无预警中断。此外金融服务业可借助机器人流程自动化(RPA),自动化执行原本需要依靠手动的Routine工作、或其他数据密集型流程,以减少人力工时的耗损、提高生产力并消弭人为错误。

数据科学家备多力分  影响专案品质与效率

纵然导入AI好处多多,但是多数企业在推动AI/ML过程,仍遭遇诸多瓶颈。据Algorithmia调查报告显示,约23%企业的新模型上线周期介于1~3个月,甚至还有18%的企业超过3个月,合计逾四成企业须耗费1个月以上才能推出新模型,节奏堪称缓慢。

另外很尴尬的,近三成企业遇到一个难题,开发人员不理解专业领域的实际需求,专业领域的人员也同样不理解AI开发所需背景,导致AI/ML专案经常欠缺专业知识及高品质数据,以致成果不彰。

更麻烦的是,碍于林林总总问题,造成许多专案无法顺利上线应用,仅停留在PoC实验测试阶段;可以说企业汲汲营营想要在AI发展上有所作为,到头来依然落空。

为何AI旅程走得如此巅跛不顺?主要症结在于供需之间的认知落差。站在老板或其他高端主管的立场,既然花钱购进昂贵GPU机器、建立AI基础架构,又延聘高薪的数据科学家人才,当然希望赶紧做出让公司营运一飞冲天的模型与应用。然而老板或主管们往往忽略,一个AI应用从无到有的过程,不单单指有模型训练一档工作,要做的事情其实很繁杂,让数据科学家备多力分,无法专注开发高品质的ML Code,可谓压垮AI专案的稻草。

这些杂事包含了设定题目、数据收集、特徵萃取、数据验证、机器资源管理、准备分析工具、准备流程管理工具、基础架构维运、上线监控…等,涉及多面向的技术与流程;因而使数据科学家花了六成、七成甚或更多工时处理非模型开发事务,最终造成AI专案无法如期如质上线。

当务之急,企业不能只想着赶快导入AI,还须思考完整配套,设法提升AI开发的速度及品质,才能真正心想事成。

透过AutoML  非数据科学专业者也能开发模型

不可讳言,AI/ML是一个需要不停迭代优化的循环流程,每次循环都涵盖定义问题、数据收集与处理、模型设计到模型部署等步骤,每个步骤都至关重要。为确保每项工作事项都能迅速有效地被执行,近年业界积极倡议MLOps,强调唯有MLOps才能加速AI开发进程,扩大AI应用规模。

MLOps意指涵盖AI模型训练、模型封装、模型验证、模型部署、模型监控等一系列完整机器学习工作流程,顾名思义就是ML(机器学习)、Dev(软件开发)、Ops(IT运维)的集合体。从模型训练到部署上线,其间有许多事情需要处理,不仅如此,等到模型上线后仍须持续监控、并收集新的场域数据,尔后若发觉既有模型推论精准度下滑,即需以新数据为素材、重新启动模型训练。

根据Algorithmia调查统计,已采用MLOps服务工具的企业,导入AI应用的时间平均从原来的92天降为64天,降幅高达31%,可说成效卓着。因此专业机构Cognilytica也乐观看待MLOps发展前景,预估2025年全球MLOps市场规模可望上看40亿美元。

鉴于MLOps需求看涨,市场上出现愈来愈多AI PaaS相关工具或服务,大多都内含数据管理(包括数据前处理、数据标注、数据分析和数据清洗)、模型开发(提供IDE环境)、模型训练(自动化超参数调优)、模型管理(储存和版控)、应用部署(推论及监测)等丰富功能。

前述的MLOps工具,其实蕴含两大类型功效,首先让熟悉数据分析工具者、也就是数据科学家方便做事,当他完成数据前处理与标注等工作后,即可从自助服务工作区快速选用Jupyter Notebook、R、TensorFlow、Pytorch等资源,展开模型训练,后续再利用Model Repository执行版控、Image Repository执行部署,将模型布建到推论环境。

其次可让非数据科学专业者,以近乎No Code方式产出AI模型。他们仅需上传数据,即可由AI PaaS平台自动代为清理数据、挑选演算法、调优超参数、评估最佳模型,最终进行部署与管理。有人称它为「傻瓜式AI」、意即AutoML,旨在让欠缺数据科学家的企业,照样能凭藉高度自动化、迅速建立模型,足以解释数据与模型关系等助力,尽速踏上AI/ML旅程。

总之藉由MLOps和AutoML的辅助,让企业得以减少对资深数据科学家、ML工程师、程序开发工程师的依赖,由各部门自行利用其掌握的数据基础,以最小成本打造AI模型,持续推动业务应用创新,经由不断滚动来翻转企业总体竞争力。


关键字