taitra
Seagate

[3D视觉计算] 3D视觉机会来临!

  • 徐宏民

3D传感器不断推陈出新、成本逐渐降低,而且各种崭新的应用包括扩增实境(AR)?虚拟实境(VR)、自驾车、 医疗、安全、机械制造、机器人(手臂)等都需要3D视觉技术的突破。KUKA

这几年深度学习技术大大推升影像上的研究,许多核心技术都有超越人类的辨识能力,并逐渐落地为产品。3D传感器以及各种应用则是另一崛起中的技术趋势;传统影像属于2D,透过拍摄将立体环境中某个视角,投影在二维平面中。所以3D影像比2D多了深度信息(距离相机的位置),更可以透过线性转换了解观测物件在3D中的位置,因此3D影像可以获得更丰富的立体空间讯息,但是也因为与传统2D影像不同,所以处理复杂度较高,甚至还不知如何发挥这些3D资料的高度潜力。

3D视觉计算是个崛起的计算领域,亦是产业界高度看好的范畴。3D传感器不断推陈出新、成本逐渐降低,而且各种崭新的应用包括扩增实境(AR)?虚拟实境(VR)、自驾车、 医疗、安全、机械制造、机器人(手臂)等都需要3D视觉技术的突破。过去曾有些尝试,面对这些崭新应用及技术突破,过去的做法正逐渐被全新的思维取代。

3D视觉技术开启新的机会。自驾车中得精确掌握人、车、障碍物位置、移动方向,不管是利用高价的LiDAR或是低价的立体相机,都是关键技术。机器手臂加工,为了侦测正确的涂胶、检测位置、抓取点,必须掌握精准的3D位置。在AR/VR中得了解游戏的场景、位置,所以平面侦测、地图重建定位(SLAM)、头部位置,都受惠于立体信息。3D人脸辨识,特别是可以避掉2D人脸辨识常遇到的造假问题、低亮度挑战等,似乎呈现新的需求。

目前常用的3D传感器包括利用两只摄影机推测的立体相机,打出红外线利用飞行时间侦测物体远近的ToF相机,使用雷射光可以测得更远距离的光达相机(LiDAR),或是打出连续经过特殊编码画面的结构光相机等,都在不一样的应用情境中被采用。每种3D讯号来源各有其优缺点、成本、适合的情境,有许多新的领域值得开发。

3D传感器百家争鸣,硬件价格差异颇大,有数百美元到数万美元的变化,但是以前必须全然仰赖高精度(同时高价格)传感器的限制,目前也逐渐被颠覆。例如学界利用立体相机尝试来逼近LiDAR的效能。工业检测所需高精度量测,也有机会利用目前深度学习技术来逼近。低成本硬件,加上智能算法,达到更佳的性价比,

目前是3D智能运算机会萌芽的时刻。未来难料,但我们可以参考(2D)相机上的发展轨迹。过去几年,智能算法将(2D)相机上拍摄的体验与质量大大提升,并同时善用多个镜头,提供全新的应用。所以在3D的视觉中,智能软件应会扮演更重要的角色。

接下来一系列的文章,我们将试著由「学术」及「产业」的角度来讨论各种3D视觉技术,包括讯号的来源、资料格式、立体摄影机、核心算法(不管是voxel-based或是point-based)、以及几个重要的应用领域:3D影像切割、自驾车LiDAR物件侦测、机械手臂取放、点云影像增强、3D人脸辨识等。过去几年,我们也参与了这些重要的研究工作,按著我们在3D视觉中成功及失败的尝试,以及目前技术的走向,一起来探讨3D视觉落地在产业应用的机会。

参考资料:3D Vision

徐宏民(Winston Hsu)现任台大资工系教授及NVIDIA AI Lab计画主持人。哥伦比亚大学电机博士,专精于机器学习、大规模影像视讯查找与辨识。为讯连科技研发团队创始成员,慧景科技(工业智能新创)共同创办人;曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会;十余年产学合作及新创经验,近年致力将深度学习技术落实到产业,并协助成立研究开发团队。曾获2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018伪装人脸辨识冠军、杰出信息人才奖、吴大猷先生纪念奖等国内外研究奖项。