这几年深度学习技术大大推升影像上的研究,许多核心技术都有超越人类的识别能力,并逐渐落地为产品。3D传感器以及各种应用则是另一崛起中的技术趋势;传统影像属于2D,透过拍摄将立体环境中某个视角,投影在二维平面中。所以3D影像比2D多了深度信息(距离镜头的位置),更可以透过线性转换了解观测物件在3D中的位置,因此3D影像可以获得更丰富的立体空间信息,但是也因为与传统2D影像不同,所以处理复杂度较高,甚至还不知如何发挥这些3D数据的高度潜力。
3D视觉计算是个崛起的计算领域,亦是产业界高度看好的范畴。3D传感器不断推陈出新、成本逐渐降低,而且各种崭新的应用包括增实境(AR)虚拟实境(VR)、自驾车、 医疗、安全、机械制造、机器人(手臂)等都需要3D视觉技术的突破。过去曾有些尝试,面对这些崭新应用及技术突破,过去的做法正逐渐被全新的思维取代。
3D视觉技术开启新的机会。自驾车中得精确掌握人、车、障碍物位置、移动方向,不管是利用高价的LiDAR或是低价的立体镜头,都是关键技术。机器手臂加工,为了侦测正确的涂胶、检测位置、抓取点,必须掌握精准的3D位置。在AR/VR中得了解游戏的场景、位置,所以平面侦测、地图重建定位(SLAM)、头部位置,都受惠于立体信息。3D人脸识别,特别是可以避掉2D人脸识别常遇到的造假问题、低亮度挑战等,似乎呈现新的需求。
目前常用的3D传感器包括利用两只摄影机推测的立体镜头,打出红外线利用飞行时间侦测物体远近的ToF镜头,使用雷射光可以测得更线上离的激光雷达镜头(LiDAR),或是打出连续经过特殊编码画面的结构光镜头等,都在不一样的应用情境中被采用。每种3D信号来源各有其优缺点、成本、适合的情境,有许多新的领域值得开发。
3D传感器百家争鸣,硬件价格差异颇大,有数百美元到数万美元的变化,但是以前必须全然仰赖高精度(同时高价格)传感器的限制,目前也逐渐被颠覆。例如学界利用立体镜头尝试来逼近LiDAR的效能。工业检测所需高精度量测,也有机会利用目前深度学习技术来逼近。低成本硬件,加上智能算法,达到更佳的性价比,
目前是3D智能运算机会萌芽的时刻。未来难料,但我们可以参考(2D)镜头上的发展轨迹。过去几年,智能演算法将(2D)镜头上拍摄的体验与品质大大提升,并同时善用多个镜头,提供全新的应用。所以在3D的视觉中,智能软件应会扮演更重要的角色。
接下来一系列的文章,我们将试着由「学术」及「产业」的角度来讨论各种3D视觉技术,包括信号的来源、数据格式、立体摄影机、核心算法(不管是voxel-based或是point-based)、以及几个重要的应用领域:3D影像切割、自驾车LiDAR物件侦测、机械手臂取放、点云影像增强、3D人脸识别等。过去几年,我们也参与了这些重要的研究工作,按着我们在3D视觉中成功及失败的尝试,以及目前技术的走向,一起来探讨3D视觉落地在产业应用的机会。
参考数据:3D Vision
徐宏民(Winston Hsu)现任富智捷(MobileDrive)技术长暨副总经理以及台大信息工程学系教授。哥伦比亚大学电机博士,专精于机器学习、大规模影像视讯查找与识别。为讯连科技研发团队创始成员,慧景科技(thingnario)共同创始人,NVIDIA AI Lab计划主持人;曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会;十余年产学合作及新创经验。曾获2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018伪装人脸识别冠军、杰出信息人才奖、吴大猷先生纪念奖等国内外研究奖项。