[3D视觉计算] 3D视觉机会来临！

徐宏民
2019-11-05
分享
Line

3D传感器不断推陈出新、成本逐渐降低，而且各种崭新的应用包括增实境(AR)﹧虚拟实境(VR)、自驾车、医疗、安全、机械制造、机器人(手臂)等都需要3D视觉技术的突破。KUKA

这几年深度学习技术大大推升影像上的研究，许多核心技术都有超越人类的识别能力，并逐渐落地为产品。3D传感器以及各种应用则是另一崛起中的技术趋势；传统影像属于2D，透过拍摄将立体环境中某个视角，投影在二维平面中。所以3D影像比2D多了深度信息(距离镜头的位置)，更可以透过线性转换了解观测物件在3D中的位置，因此3D影像可以获得更丰富的立体空间信息，但是也因为与传统2D影像不同，所以处理复杂度较高，甚至还不知如何发挥这些3D数据的高度潜力。

3D视觉计算是个崛起的计算领域，亦是产业界高度看好的范畴。3D传感器不断推陈出新、成本逐渐降低，而且各种崭新的应用包括增实境(AR)﹧虚拟实境(VR)、自驾车、医疗、安全、机械制造、机器人(手臂)等都需要3D视觉技术的突破。过去曾有些尝试，面对这些崭新应用及技术突破，过去的做法正逐渐被全新的思维取代。

3D视觉技术开启新的机会。自驾车中得精确掌握人、车、障碍物位置、移动方向，不管是利用高价的LiDAR或是低价的立体镜头，都是关键技术。机器手臂加工，为了侦测正确的涂胶、检测位置、抓取点，必须掌握精准的3D位置。在AR/VR中得了解游戏的场景、位置，所以平面侦测、地图重建定位(SLAM)、头部位置，都受惠于立体信息。3D人脸识别，特别是可以避掉2D人脸识别常遇到的造假问题、低亮度挑战等，似乎呈现新的需求。

目前常用的3D传感器包括利用两只摄影机推测的立体镜头，打出红外线利用飞行时间侦测物体远近的ToF镜头，使用雷射光可以测得更线上离的激光雷达镜头(LiDAR)，或是打出连续经过特殊编码画面的结构光镜头等，都在不一样的应用情境中被采用。每种3D信号来源各有其优缺点、成本、适合的情境，有许多新的领域值得开发。

3D传感器百家争鸣，硬件价格差异颇大，有数百美元到数万美元的变化，但是以前必须全然仰赖高精度(同时高价格)传感器的限制，目前也逐渐被颠覆。例如学界利用立体镜头尝试来逼近LiDAR的效能。工业检测所需高精度量测，也有机会利用目前深度学习技术来逼近。低成本硬件，加上智能算法，达到更佳的性价比，

目前是3D智能运算机会萌芽的时刻。未来难料，但我们可以参考(2D)镜头上的发展轨迹。过去几年，智能演算法将(2D)镜头上拍摄的体验与品质大大提升，并同时善用多个镜头，提供全新的应用。所以在3D的视觉中，智能软件应会扮演更重要的角色。

接下来一系列的文章，我们将试着由「学术」及「产业」的角度来讨论各种3D视觉技术，包括信号的来源、数据格式、立体摄影机、核心算法(不管是voxel-based或是point-based)、以及几个重要的应用领域：3D影像切割、自驾车LiDAR物件侦测、机械手臂取放、点云影像增强、3D人脸识别等。过去几年，我们也参与了这些重要的研究工作，按着我们在3D视觉中成功及失败的尝试，以及目前技术的走向，一起来探讨3D视觉落地在产业应用的机会。

参考数据：3D Vision

徐宏民
台大资工系教授

徐宏民(Winston Hsu)现任富智捷(MobileDrive)技术长暨副总经理以及台大信息工程学系教授。哥伦比亚大学电机博士，专精于机器学习、大规模影像视讯查找与识别。为讯连科技研发团队创始成员，慧景科技(thingnario)共同创始人，NVIDIA AI Lab计划主持人；曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会；十余年产学合作及新创经验。曾获2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018伪装人脸识别冠军、杰出信息人才奖、吴大猷先生纪念奖等国内外研究奖项。