TWCC
DForum
 

视讯档让机器学习预处理 影像压缩档变好又变小

iSize Technologies的机器学习预处理工具可区别人类感知重视与忽视的视讯画面区域。iSize Technologies

运用机器学习(ML)工具一次性预处理视讯,可让现有标准编码器能以更高的压缩率产生相同的视觉质量,对运算资源耗用影响极微,无需改变装置即可提供更好的观影体验,并大幅降低传输视讯的带宽需求。

根据Techerati报导,带宽竞争等问题会影响互联网联机质量,思科(Cisco)最新研究预测2022年互联网流量每年将达4.8ZB(Zettabyte),其中低延迟以及可靠与稳定资料传输速度的视讯应用至少占80%。观众期待视讯的影像质量持续提升,但分辨率越高则档案越庞大。

人类感知与理解视讯的方式很复杂,且视讯质量与内容涵盖的信息极为多元,因此开发自动化技术找出视讯中人类不会关注或较不重要的画面区域,淡化其细节来降低编码复杂度与输出的档案大小,并以不失真的方式最佳化影像,已是视讯压缩与呈现的研究中非常复杂的长期挑战。

目前有数个产学界的先进团队已投入原始视讯与压缩算法感知(Perceptual)视讯质量量化比较的研究,在基于未压缩的参考视讯方式中最被广泛使用的可能是Netflix的VMAF(Video Multi-Method Assessment Fusion)。

相同的视讯透过智能型手机的HD/4K屏幕与大尺寸4K平板电视观看的感受不同,因此VMAF的新发展将4K视讯与屏幕尺寸纳入考量。iSize Technologies的视讯预处理ML工具领先全球,视讯处理后经VMAF等高阶理解影像质量衡量评分,能跟标准编码器处理后的档案大小取得缺省的平衡。

VMAF在现有影像质量衡量标准加上专属联合因子以评定视觉感知,100分代表完全无法区别压缩后的视讯与未压缩的参考视讯,分数越低可区别性越高,0分代表压缩后的视讯与未压缩的参考视讯在视觉感知上完全不同。ML预处理工具的输出可让后续的编码器强化人类感知关注的部分,其它部分则以较少的位元数储存。

ML预处理工具采大量平行处理,适合运用目前云端资料中心普及的GPU,且视讯的后续处理与传输、客户端的接收与观看跟目前完全相同。视讯经iSize Technologies的ML工具预处理后,可降低AV1、H.264/AVC、H.265/HEVC编码的位元率(Bitrate)达20~40%,且视讯分辨率不变、VMAF分数相同或更高。

  •     按赞加入DIGITIMES智能应用粉丝团
更多关键字报导: 机器学习