首创增强式学习AI影像压缩 阳明交大研究成绩亮眼 智能应用 影音
工研院
ADI

首创增强式学习AI影像压缩 阳明交大研究成绩亮眼

  • 林佩莹台北

增强式学习编码优化压缩技术(右图)与HEVC(左图)国际标准压缩的主观品质比较。彭文孝教授
增强式学习编码优化压缩技术(右图)与HEVC(左图)国际标准压缩的主观品质比较。彭文孝教授

在GPU运算能力大幅飙升、演算法成熟之后,AI技术被应用在许多智能应用服务中,唯一例外是发展超过20多年的影像/视讯压缩技术。此技术在过去20年没有重大演进,却是多媒体领域中扮演影响经济发展的重要关键,无论是时下流行的YouTube、Netflix等,又或者疫情时间使用量大爆发的视讯会议服务,都非常仰赖该技术协助。

目前影像/视讯等使用的压缩技术,是采用人类开发的数学演算法,因此有团队尝试以AI技术取代,期盼能创造更好的效果。获得科技部赞助、由阳明交大信息工程学系教授彭文孝领军,与杭学鸣、萧旭峰、黄敬群、邱维辰等教授合作的「基于生成模型的视讯压缩」计划,已连续4年参与Google举办的学习式影像压缩竞赛(CLIC) ,且在 JPEG AI CfE 竞赛中获第二名的佳绩,而国研院国网中心的台湾杉超级电脑则扮演幕后功臣的角色。

阳明交大信息工程学系教授彭文孝。阳明交大

阳明交大信息工程学系教授彭文孝。阳明交大

彭文孝教授指出,在影像识别等众多领域中,AI技术都有非常出色的表现,唯独在影像/视讯压缩技术,至今仍然无法超越最新一代的压缩技术。从2018年 Google举办学习式影像压缩竞赛后,也带动全球团队投入此领域的风潮,不仅每年研究论文数量开始暴增,JEPG 组织更预定2024年要完成学习式影像标准化的工作。

研究成果出色  国际竞赛成绩卓越

目前全球将AI应用于影像/视讯压缩领域的发展趋势,分成AI-based、AI-assisted、Hybrid-based三大面向。在AI-assisted影像/视讯压缩,彭文孝教授带领的团队,首创采用增强式学习进行编码优化压缩技术,可在不更改既有的编解码器前提下,实践提高压缩效能的目标。此技术已发表在 2021年Data Compression Conference,且分别在台湾及美国申请专利。

此外,彭教授团队也在AI-based端对端学习式影像与视讯压缩,有所突破。利用最新的Normalizing Flow生成模型,可在相同位元率下,拥有最佳品质,效能超越传统的压缩标准HEVC,并接近 2020 年最新制定的压缩标准 VVC。在主观视觉效果上,则大幅超越传统技术。

台湾杉服务加持  论文受国际关注

过去,团队在投入开发增强式学习进行编码优化压缩技术时,都是透过平行运算将研究室内20多台的电脑串连起来,才能免强满足专案所需。只是在此状况下,每当需要调整专案中的AI参数,都得花费数个小时之后才知道结果,若是AI模型建置更需长达数个月之久,严重影响到专案进度。2018年国网中心开始打造台湾杉一号时,团队获得参与测试机会,自此开始也加快增强式学习进行编码优化压缩技术的研发成果。

彭文孝教授表示,自行维护运算架构不仅耗时,电脑设备也难以定时更新。当团队改成租用国网中心的台湾杉一号服务后,由于该平台支持多种深度学习框架容器,环境建置时间自数小时缩短到数秒钟即可完成。其次,台湾杉一号拥有众多GPU、大量VRAM以及运算单元,也让模型训练时间从以往数个月缩短到一两周即可完成。

在国网中心台湾杉一号全力支持下,目前团队已在国际期刊发表7篇论文,另有1篇已被接受。至于在顶级研讨会及重要国际研讨会发表的论文数量,则共达到56篇之多,也吸引众多国际团队合作,未来可望在国际市场占有一席之地。