首创增强式学习AI影像压缩阳明交大研究成绩亮眼

林佩莹／台北
2021/11/08 01:55
分享

增强式学习编码优化压缩技术(右图)与HEVC(左图)国际标准压缩的主观品质比较。彭文孝教授

在GPU运算能力大幅飙升、演算法成熟之后，AI技术被应用在许多智能应用服务中，唯一例外是发展超过20多年的影像/视讯压缩技术。此技术在过去20年没有重大演进，却是多媒体领域中扮演影响经济发展的重要关键，无论是时下流行的YouTube、Netflix等，又或者疫情时间使用量大爆发的视讯会议服务，都非常仰赖该技术协助。

目前影像/视讯等使用的压缩技术，是采用人类开发的数学演算法，因此有团队尝试以AI技术取代，期盼能创造更好的效果。获得科技部赞助、由阳明交大信息工程学系教授彭文孝领军，与杭学鸣、萧旭峰、黄敬群、邱维辰等教授合作的「基于生成模型的视讯压缩」计划，已连续4年参与Google举办的学习式影像压缩竞赛(CLIC) ，且在 JPEG AI CfE 竞赛中获第二名的佳绩，而国研院国网中心的台湾杉超级电脑则扮演幕后功臣的角色。

阳明交大信息工程学系教授彭文孝。阳明交大

彭文孝教授指出，在影像识别等众多领域中，AI技术都有非常出色的表现，唯独在影像/视讯压缩技术，至今仍然无法超越最新一代的压缩技术。从2018年 Google举办学习式影像压缩竞赛后，也带动全球团队投入此领域的风潮，不仅每年研究论文数量开始暴增，JEPG 组织更预定2024年要完成学习式影像标准化的工作。

研究成果出色国际竞赛成绩卓越

目前全球将AI应用于影像/视讯压缩领域的发展趋势，分成AI-based、AI-assisted、Hybrid-based三大面向。在AI-assisted影像/视讯压缩，彭文孝教授带领的团队，首创采用增强式学习进行编码优化压缩技术，可在不更改既有的编解码器前提下，实践提高压缩效能的目标。此技术已发表在 2021年Data Compression Conference，且分别在台湾及美国申请专利。

此外，彭教授团队也在AI-based端对端学习式影像与视讯压缩，有所突破。利用最新的Normalizing Flow生成模型，可在相同位元率下，拥有最佳品质，效能超越传统的压缩标准HEVC，并接近 2020 年最新制定的压缩标准 VVC。在主观视觉效果上，则大幅超越传统技术。

台湾杉服务加持论文受国际关注

过去，团队在投入开发增强式学习进行编码优化压缩技术时，都是透过平行运算将研究室内20多台的电脑串连起来，才能免强满足专案所需。只是在此状况下，每当需要调整专案中的AI参数，都得花费数个小时之后才知道结果，若是AI模型建置更需长达数个月之久，严重影响到专案进度。2018年国网中心开始打造台湾杉一号时，团队获得参与测试机会，自此开始也加快增强式学习进行编码优化压缩技术的研发成果。

彭文孝教授表示，自行维护运算架构不仅耗时，电脑设备也难以定时更新。当团队改成租用国网中心的台湾杉一号服务后，由于该平台支持多种深度学习框架容器，环境建置时间自数小时缩短到数秒钟即可完成。其次，台湾杉一号拥有众多GPU、大量VRAM以及运算单元，也让模型训练时间从以往数个月缩短到一两周即可完成。

在国网中心台湾杉一号全力支持下，目前团队已在国际期刊发表7篇论文，另有1篇已被接受。至于在顶级研讨会及重要国际研讨会发表的论文数量，则共达到56篇之多，也吸引众多国际团队合作，未来可望在国际市场占有一席之地。

关键字

国网中心 AI 阳明交大

加入已选取到「关键字追踪」什麽是「关键字追踪」

首创增强式学习AI影像压缩 阳明交大研究成绩亮眼

首创增强式学习AI影像压缩阳明交大研究成绩亮眼