
影像信號处理器(ISP,Image Signal Processor)是每个鏡頭(摄影机)的核心,主要是将影像傳感器的信號输出接续转换为标准的全彩(如sRGB或类似色彩表示、或进而压缩为适当格式)。其主要过程包括去马赛克、降噪、白平衡、曝光校正、锐化、色彩转换、编码等复杂的模塊。
ISP为摄影机的关键,摄影品质好坏全然取决于在不同的光学条件下的影像输出品质。所以ISP中各个功能模塊参数调教,即成了业界的重要工作甚至是独门秘方。一般而言,这些功能都是独立模塊,所以每个模塊无法操控其他模塊的输出结果,或是弥补其他模塊处理所损失的信號。连续独立模塊计算,不能避免的造成原始傳感信號的损失。
近几年兴起的卷积網絡(CNN)能否取代传统ISP的工作?能否设计一个CNN将影像傳感信號(如RAW原始格式)直接转换为高品质的全彩影像?这是近年学术界新兴的问题。因为卷积網絡具有高运算能力,富含数百(千)万个参数,远大于传统ISP的参数量。近来的研究更发现透过机器学习系统化的训练,在各项智能工作中都远胜于人工参数调教的成果。而且CNN端对端的运作方式有机会弥补其他卷积层的信號损失,又优于传统ISP各个模塊间独立运作的局限。
特别是目前移動设备中的影像傳感器较小,传统ISP的算法有其局限性,然而卷积網絡善用庞大参数量以及大量的训练數據,可以扩张傳感器的极限。近年来终端卷积加速芯片的发展— 速度提升以及低耗能,也预备了全新「智能化」ISP的运算平臺。因为CNN的参数更可以抽换(修正),智能ISP甚至有机会开启个人化的功能。
近年来的研究也验证了这样的猜想。研究显示可以设计出单个端到端的卷积網絡来取代、甚至超越目前市面上复杂的ISP, 即便CNN不预先知道影像傳感器和光学元件的组成特性。利用好几层的卷积,不同大小的卷积核,同时处理数个不同分辨率的画面,CNN可以考量画面的区域或是全局亮度、材质、线条,甚至了解画面的语意进而进行智能化影像修补、增强,包括放大画面的超解析、去模糊化、直接产生高动态范围影像(HDR)等重要工作。
我们这两年的研究也发现,直接由RAW信號上进行影像以及视讯品质强化工作,如超解析画面增大、视讯去模糊化等,采用卷积網絡增益的效果更佳,因为RAW所含有的原始信號较丰富。特别是在低亮度的情况下,由RAW直接增益的效果更为明显。甚至连物件侦测、影像切割的等重要智能工作,直接在RAW上运算,明显比在传统ISP处理后的sRGB上进行来的优异。
另一个未来的思考面向:摄影内容是让人看?还是机器看的?最近两年遇到摄影机产业链的业界朋友,我们都会讨论一个问题,目前或是未来出货的摄影镜头所拍的视讯,是人看的比较多,还是机器(演算法)看的较多?大家都认为应该(或是即将)是机器看得较多。因为人力无法负荷监看这么高速成长的镜头。 特别在快速变革、高成长的应用场域,如交通、零售、工业安全、医疗照护等,更为明显。如果趋势不变,传统ISP为人类视觉优化的设计是不是得大幅修正?
设计全新的ISP似乎吻合目前技术的走向,但是产品化的过程中如何切入最佳的产业垂直领域?搭配何种GPU/VPU或卷积加速芯片?如何设计适切的卷积網絡来确保运算速度以及耗能?或是如何产生RAW及sRGB的匹配训练數據等?都是产品化的必要研究课题。深具挑战,不过我相信国际摄影机产业链中,一定有不少人往这方向努力寻找典范转移的新机会。