翻新ISP设计？

徐宏民
2020-05-05
分享
Line

随着视讯影像的作用改变，传统ISP为人类视觉优化的设计也许可以重新思考。Unsplash

影像信号处理器(ISP，Image Signal Processor)是每个镜头(摄影机)的核心，主要是将影像传感器的信号输出接续转换为标准的全彩(如sRGB或类似色彩表示、或进而压缩为适当格式)。其主要过程包括去马赛克、降噪、白平衡、曝光校正、锐化、色彩转换、编码等复杂的模块。

ISP为摄影机的关键，摄影品质好坏全然取决于在不同的光学条件下的影像输出品质。所以ISP中各个功能模块参数调教，即成了业界的重要工作甚至是独门秘方。一般而言，这些功能都是独立模块，所以每个模块无法操控其他模块的输出结果，或是弥补其他模块处理所损失的信号。连续独立模块计算，不能避免的造成原始传感信号的损失。

近几年兴起的卷积网络(CNN)能否取代传统ISP的工作？能否设计一个CNN将影像传感信号(如RAW原始格式)直接转换为高品质的全彩影像？这是近年学术界新兴的问题。因为卷积网络具有高运算能力，富含数百(千)万个参数，远大于传统ISP的参数量。近来的研究更发现透过机器学习系统化的训练，在各项智能工作中都远胜于人工参数调教的成果。而且CNN端对端的运作方式有机会弥补其他卷积层的信号损失，又优于传统ISP各个模块间独立运作的局限。

特别是目前移动设备中的影像传感器较小，传统ISP的算法有其局限性，然而卷积网络善用庞大参数量以及大量的训练数据，可以扩张传感器的极限。近年来终端卷积加速芯片的发展— 速度提升以及低耗能，也预备了全新「智能化」ISP的运算平台。因为CNN的参数更可以抽换(修正)，智能ISP甚至有机会开启个人化的功能。

近年来的研究也验证了这样的猜想。研究显示可以设计出单个端到端的卷积网络来取代、甚至超越目前市面上复杂的ISP，即便CNN不预先知道影像传感器和光学元件的组成特性。利用好几层的卷积，不同大小的卷积核，同时处理数个不同分辨率的画面，CNN可以考量画面的区域或是全局亮度、材质、线条，甚至了解画面的语意进而进行智能化影像修补、增强，包括放大画面的超解析、去模糊化、直接产生高动态范围影像(HDR)等重要工作。

我们这两年的研究也发现，直接由RAW信号上进行影像以及视讯品质强化工作，如超解析画面增大、视讯去模糊化等，采用卷积网络增益的效果更佳，因为RAW所含有的原始信号较丰富。特别是在低亮度的情况下，由RAW直接增益的效果更为明显。甚至连物件侦测、影像切割的等重要智能工作，直接在RAW上运算，明显比在传统ISP处理后的sRGB上进行来的优异。

另一个未来的思考面向：摄影内容是让人看？还是机器看的？最近两年遇到摄影机产业链的业界朋友，我们都会讨论一个问题，目前或是未来出货的摄影镜头所拍的视讯，是人看的比较多，还是机器(演算法)看的较多？大家都认为应该(或是即将)是机器看得较多。因为人力无法负荷监看这麽高速成长的镜头。特别在快速变革、高成长的应用场域，如交通、零售、工业安全、医疗照护等，更为明显。如果趋势不变，传统ISP为人类视觉优化的设计是不是得大幅修正？

设计全新的ISP似乎吻合目前技术的走向，但是产品化的过程中如何切入最佳的产业垂直领域？搭配何种GPU/VPU或卷积加速芯片？如何设计适切的卷积网络来确保运算速度以及耗能？或是如何产生RAW及sRGB的匹配训练数据等？都是产品化的必要研究课题。深具挑战，不过我相信国际摄影机产业链中，一定有不少人往这方向努力寻找典范转移的新机会。

徐宏民
台大资工系教授

徐宏民(Winston Hsu)现任富智捷(MobileDrive)技术长暨副总经理以及台大信息工程学系教授。哥伦比亚大学电机博士，专精于机器学习、大规模影像视讯查找与识别。为讯连科技研发团队创始成员，慧景科技(thingnario)共同创始人，NVIDIA AI Lab计划主持人；曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会；十余年产学合作及新创经验。曾获2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018伪装人脸识别冠军、杰出信息人才奖、吴大猷先生纪念奖等国内外研究奖项。