智能应用 影音
MongoDB
ADI

20年镜头技术更迭教我们的事

计算摄影是未来值得关注的趋势。Google

第一次使用数码镜头是2001年到尼泊尔爬山时,也一起带了使用正片与负片的传统镜头。虽然分辨率不高(640x480),却频于分享数码相片,因为方便在电脑上观看、聚会时投影出来解说旅程的故事、或是透过电子邮件分享。所以「数码化」、「便于分享」弥补了早期数码镜头品质的不足。

2002年到纽约进行博士学业,与台湾家人的分享完全透过数码照片,大量拍照更新,让家人理解在美国的生活情形,透过E-mail以及后来使用的照片社群服务(如Flickr),让照片分享、储存更为容易。之间更换了多台数码镜头,较佳的摄影品质、镜头焦段等促进换机的理由;数码镜头品质提升,传统底片镜头没落。

2010年移动(手机)摄影问世后,10年来不断窜升,方便携带、搭配网络、互动频繁的网络社群App,让移动摄影后发先至,不断取代数码镜头。数码镜头由2010年的高峰,快速下滑,也让数码镜头产业产生极大变化。而移动摄影品质、手机镜头也成了现今移动电话换机的首要因素。

与数码镜头相比,手机的尺寸不大,限制了移动摄影的镜头硬件规格。感光元件尺寸小(分辨率低)、固定光圈、进光量有限、影像可记录数值范围狭小。厚度的限制,也无法负荷光学变焦,景深等更为有限。

即使这样,移动摄影为何可以达到这麽好的品质呢?凭藉的是这十年方兴未艾的计算摄影(Computational Photography)技术,利用演算法,打破镜头的硬件局限来提升照片品质,甚至降低硬件成本。

善用手机上较高的运算能力,计算摄影技术利用各种演算法来补强镜头光学以及感光元件的限制:例如提高影像分辨率、降噪、高动态范围成像(HDR)、低光拍摄、或是模拟出景深效果等,甚至利用多颗镜头,多张影像计算提升影像品质。目前的研究,或是早期产品都发现,跳过传统ISP (Image Signal Processor),直接由感光元件上(RAW信号)进行计算摄影运算,可以获得更好的影像品质。

从传统镜头、数码镜头、到移动摄影,甚至延伸至各样视觉传感器。二十年产业结构转变,肇因于数码化、联网、分享能力、软件弥补硬件的局限、多镜头/多信号源、3D成像、社群、App等,绝大部分是我们忽略的软性技术:软件与服务。 

另一个更跃跃欲试的是「智能化」,受惠于这几年进展快速的卷积网络(深度学习技术)。传统的镜头ISP大都使用近乎线性、考虑小区域的计算来增益影像品质,卷积网络可以提供更复杂的运算,甚至考量画面语意(如树、路面、人等)更精准的改善影像品质。搭配逐渐成形的卷积加速芯片,深度学习演算法与硬件加速两股力量汇流,预期会看到更令人惊艳的影像产品。一系列neural-based ISP技术发展(如DeepISP),值得关注。

而这样的摄影技术更替还没停止,甚至蔓延到其他产业。镜头捕捉的画面不再是为了美观,而是让机器精准判读:视讯监控、AOI、ADAS、自驾车、机械手臂等使用大量镜头。特别是在快速成长的车用市场,每部车镜头个数将高达两位数,用于车道/障碍物监控、路线规划、自动停车、环景、或是了解驾驶(乘客)的状态。搭配V2X 联网、5G通讯等,过去二十年镜头技术典范转移的成因(软件与服务),似乎也是热衷于新能源车的企业们,所不能忽略的。

徐宏民(Winston Hsu)现任富智捷(MobileDrive)技术长暨副总经理以及台大信息工程学系教授。哥伦比亚大学电机博士,专精于机器学习、大规模影像视讯查找与识别。为讯连科技研发团队创始成员,慧景科技(thingnario)共同创始人,NVIDIA AI Lab计划主持人;曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会;十余年产学合作及新创经验。曾获2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018伪装人脸识别冠军、杰出信息人才奖、吴大猷先生纪念奖等国内外研究奖项。