智能应用 影音
MongoDB
ST Microsite

翻新ISP设计?

随着视讯影像的作用改变,传统ISP为人类视觉优化的设计也许可以重新思考。Unsplash

影像信号处理器(ISP,Image Signal Processor)是每个镜头(摄影机)的核心,主要是将影像传感器的信号输出接续转换为标准的全彩(如sRGB或类似色彩表示、或进而压缩为适当格式)。其主要过程包括去马赛克、降噪、白平衡、曝光校正、锐化、色彩转换、编码等复杂的模块。

ISP为摄影机的关键,摄影品质好坏全然取决于在不同的光学条件下的影像输出品质。所以ISP中各个功能模块参数调教,即成了业界的重要工作甚至是独门秘方。一般而言,这些功能都是独立模块,所以每个模块无法操控其他模块的输出结果,或是弥补其他模块处理所损失的信号。连续独立模块计算,不能避免的造成原始传感信号的损失。

近几年兴起的卷积网络(CNN)能否取代传统ISP的工作?能否设计一个CNN将影像传感信号(如RAW原始格式)直接转换为高品质的全彩影像?这是近年学术界新兴的问题。因为卷积网络具有高运算能力,富含数百(千)万个参数,远大于传统ISP的参数量。近来的研究更发现透过机器学习系统化的训练,在各项智能工作中都远胜于人工参数调教的成果。而且CNN端对端的运作方式有机会弥补其他卷积层的信号损失,又优于传统ISP各个模块间独立运作的局限。 

特别是目前移动设备中的影像传感器较小,传统ISP的算法有其局限性,然而卷积网络善用庞大参数量以及大量的训练数据,可以扩张传感器的极限。近年来终端卷积加速芯片的发展— 速度提升以及低耗能,也预备了全新「智能化」ISP的运算平台。因为CNN的参数更可以抽换(修正),智能ISP甚至有机会开启个人化的功能。

近年来的研究也验证了这样的猜想。研究显示可以设计出单个端到端的卷积网络来取代、甚至超越目前市面上复杂的ISP, 即便CNN不预先知道影像传感器和光学元件的组成特性。利用好几层的卷积,不同大小的卷积核,同时处理数个不同分辨率的画面,CNN可以考量画面的区域或是全局亮度、材质、线条,甚至了解画面的语意进而进行智能化影像修补、增强,包括放大画面的超解析、去模糊化、直接产生高动态范围影像(HDR)等重要工作。

我们这两年的研究也发现,直接由RAW信号上进行影像以及视讯品质强化工作,如超解析画面增大、视讯去模糊化等,采用卷积网络增益的效果更佳,因为RAW所含有的原始信号较丰富。特别是在低亮度的情况下,由RAW直接增益的效果更为明显。甚至连物件侦测、影像切割的等重要智能工作,直接在RAW上运算,明显比在传统ISP处理后的sRGB上进行来的优异。

另一个未来的思考面向:摄影内容是让人看?还是机器看的?最近两年遇到摄影机产业链的业界朋友,我们都会讨论一个问题,目前或是未来出货的摄影镜头所拍的视讯,是人看的比较多,还是机器(演算法)看的较多?大家都认为应该(或是即将)是机器看得较多。因为人力无法负荷监看这麽高速成长的镜头。 特别在快速变革、高成长的应用场域,如交通、零售、工业安全、医疗照护等,更为明显。如果趋势不变,传统ISP为人类视觉优化的设计是不是得大幅修正?

设计全新的ISP似乎吻合目前技术的走向,但是产品化的过程中如何切入最佳的产业垂直领域?搭配何种GPU/VPU或卷积加速芯片?如何设计适切的卷积网络来确保运算速度以及耗能?或是如何产生RAW及sRGB的匹配训练数据等?都是产品化的必要研究课题。深具挑战,不过我相信国际摄影机产业链中,一定有不少人往这方向努力寻找典范转移的新机会。

徐宏民(Winston Hsu)现任富智捷(MobileDrive)技术长暨副总经理以及台大信息工程学系教授。哥伦比亚大学电机博士,专精于机器学习、大规模影像视讯查找与识别。为讯连科技研发团队创始成员,慧景科技(thingnario)共同创始人,NVIDIA AI Lab计划主持人;曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会;十余年产学合作及新创经验。曾获2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018伪装人脸识别冠军、杰出信息人才奖、吴大猷先生纪念奖等国内外研究奖项。