智能应用 影音
Dtalk
fetnet

翻新ISP设计?

  • 徐宏民

随著视讯影像的作用改变,传统ISP为人类视觉优化的设计也许可以重新思考。Unsplash

影像讯号处理器(ISP,Image Signal Processor)是每个相机(摄影机)的核心,主要是将影像传感器的讯号输出接续转换为标准的全彩(如sRGB或类似色彩表示、或进而压缩为适当格式)。其主要过程包括去马赛克、降噪、白平衡、曝光校正、锐化、色彩转换、编码等复杂的模块。

ISP为摄影机的关键,摄影质量好坏全然取决于在不同的光学条件下的影像输出质量。所以ISP中各个功能模块参数调教,即成了业界的重要工作甚至是独门秘方。一般而言,这些功能都是独立模块,所以每个模块无法操控其它模块的输出结果,或是弥补其它模块处理所损失的讯号。连续独立模块计算,不能避免的造成原始感测讯号的损失。

近几年兴起的卷积网络(CNN)能否取代传统ISP的工作?能否设计一个CNN将影像感测讯号(如RAW原始格式)直接转换为高质量的全彩影像?这是近年学术界新兴的问题。因为卷积网络具有高运算能力,富含数百(千)万个参数,远大于传统ISP的参数量。近来的研究更发现透过机器学习系统化的训练,在各项智能工作中都远胜于人工参数调教的成果。而且CNN端对端的运行方式有机会弥补其它卷积层的讯号损失,又优于传统ISP各个模块间独立运行的局限。 

特别是目前行动设备中的影像传感器较小,传统ISP的算法有其局限性,然而卷积网络善用庞大参数量以及大量的训练资料,可以扩张传感器的极限。近年来终端卷积加速芯片的发展— 速度提升以及低耗能,也预备了全新「智能化」ISP的运算平台。因为CNN的参数更可以抽换(修正),智能ISP甚至有机会开启个人化的功能。

近年来的研究也验证了这样的猜想。研究显示可以设计出单个端到端的卷积网络来取代、甚至超越目前市面上复杂的ISP, 即便CNN不预先知道影像传感器和光学元件的组成特性。利用好几层的卷积,不同大小的卷积核,同时处理数个不同分辨率的画面,CNN可以考量画面的区域或是全局亮度、材质、线条,甚至了解画面的语意进而进行智能化影像修补、增强,包括放大画面的超解析、去模糊化、直接产生高动态范围影像(HDR)等重要工作。

我们这两年的研究也发现,直接由RAW讯号上进行影像以及视讯质量强化工作,如超解析画面增大、视讯去模糊化等,采用卷积网络增益的效果更佳,因为RAW所含有的原始讯号较丰富。特别是在低亮度的情况下,由RAW直接增益的效果更为明显。甚至连物件侦测、影像切割的等重要智能工作,直接在RAW上运算,明显比在传统ISP处理后的sRGB上进行来的优异。

另一个未来的思考面向:摄影内容是让人看?还是机器看的?最近两年遇到摄影机产业链的业界朋友,我们都会讨论一个问题,目前或是未来出货的摄影镜头所拍的视讯,是人看的比较多,还是机器(算法)看的较多?大家都认为应该(或是即将)是机器看得较多。因为人力无法负荷监看这么高速成长的镜头。 特别在快速变革、高成长的应用场域,如交通、零售、工业安全、医疗照护等,更为明显。如果趋势不变,传统ISP为人类视觉优化的设计是不是得大幅修正?

设计全新的ISP似乎吻合目前技术的走向,但是产品化的过程中如何切入最佳的产业垂直领域?搭配何种GPU/VPU或卷积加速芯片?如何设计适切的卷积网络来确保运算速度以及耗能?或是如何产生RAW及sRGB的匹配训练资料等?都是产品化的必要研究课题。深具挑战,不过我相信国际摄影机产业链中,一定有不少人往这方向努力寻找典范转移的新机会。

徐宏民(Winston Hsu)现任台大资工系教授及NVIDIA AI Lab计画主持人。哥伦比亚大学电机博士,专精于机器学习、大规模影像视讯查找与辨识。为讯连科技研发团队创始成员,慧景科技(工业智能新创)共同创办人;曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会;十余年产学合作及新创经验,近年致力将深度学习技术落实到产业,并协助成立研究开发团队。曾获2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018伪装人脸辨识冠军、杰出信息人才奖、吴大猷先生纪念奖等国内外研究奖项。