智能应用 影音
工研院
ST Microsite

推进空间感知技术(一)

空间感知技术不只颠覆汽车产业也与AR/VR等息息相关。李建梁摄

这阵子关心车辆安全技术以及新能源车产业的朋友,目光焦点都在某辆开启Autopilot(自动辅助驾驶)在高速公路发生意外的车子。大致状况是在高速公路光线良好的情形下,前方内车道一辆白色货柜车倾覆,其他驾驶人减速绕道而行,而这部在Autopilot模式的车子却直接驶入货柜车厢。大家好奇,这显而易见的障碍,应该是目前快速发展的深度学习技术或是各种传感元件可以侦测得到,而车子应可以自动绕道或是停止,为什麽失误?或是从这个意外我们可以学习到什麽?

目前还没有原厂的说明,许多相关产业的技术人员都在推敲可能的原因。一般「猜测」原因可能出在电脑视觉物件侦测以及传感器融合(sensor fusion)的地方。

智能车辆的系统架构主要分为3个部分:perception(传感层)、decision(决策层)、control(控制层)。车辆行进当中利用多个传感器侦测现场的状况(包括位置、前方物件状态、道路线标、可行进空间等),接着决定路线、是否得改进目前的行进状态,最终交付给控制系统驱动车辆。

此事件中的车辆在传感上主要使用三目镜头(各个镜头的FOV跟侦测距离不同)以及雷达。倾覆的白色货车,白色巨大箱体横倒路面,可能无法使用影像物件侦测准确的识别出为车辆,因为视角所见猜测与训练数据不同,非传统路上的车辆。

另一个传感器为(长距离)雷达,是目前车辆感知上时常使用的传感器。雷达信号过去二十几年在车辆安全中已被大量使用,相较于于LiDAR,成本较低,还可以侦测物件移动速度,抵抗各种天候(低亮度、下雨、雾等),刚好弥补镜头在可视范围的缺点。目前大部分的车用雷达技术是使用传统CFAR(Constant False Alarm Rate)技术将雷达信号转换为类似点云(point cloud)的形式,用来标示可能的物件区域。

但可能源于软硬件技术的限制,目前市面上常见的雷达系统,在物体高度上分辨率都不高。一般只能标定出平面位置,有点类似LiDAR的birds-eye view (鸟瞰图),没有高度信息。照理讲雷达应该可以标示出前方横倒路面的货车,我们猜测可能因为(目前)雷达的高度分辨率不佳,如果将每个前方的物件都认定为障碍物的话,会产生许多误判的状况,比如说高速公路的伸缩缝、ETC感应门架、铁天桥、道路护栏等,无法使用高度来区分这些静止物件。所以我们「猜测」,在与镜头感知融合(sensor fusion)时,雷达信号可能忽略静止的物件,只留意移动的物件。

空间感知技术不只正在颠覆汽车产业:包括ADAS主动安全、L2 辅助驾驶、或是大家期待的L4全自驾。空间感知(特别针对3D立体传感)技术也与AR/VR、医疗、安全、机械制造、机器人(手臂)等息息相关。从这案例中,我们该如何提升软硬件技术?

在视觉物件侦查上,加强训练数据的可能视角,是最直觉的尝试。为了数据收集方便,许多开发使用电脑动画模拟环境,生成可能的画面来训练。但是训练好的模型在实际场域中会额外延伸出跨领域(cross-domain)的问题,因为模拟以及实际场域的差异,目前已有几种不一样的策略来弥补跨领域的差距。

使用点云(point cloud)来增进3D立体视觉识别是另一个视觉识别改进方向。因为点云含有丰富的空间信息,而且近年来各种点云运算架构也逐渐释放3D点云的力量。目前学界也发表了几个可以逼近LiDAR的立体镜头演算法,加上与彩色镜头、雷达等信号的各种融合技术、以及利用大量未标注数据进行「自我监督学习」(self-supervised),3D立体视觉识别应该还有相当精进的空间。

提升长距离雷达在高度的分辨率是另一改进的重点,可以透过设计新的天线摆置,或是直接由雷达侦测原始数据,如四维张量(tensor,包括二维平面、时间、都卜勒等)中,使用深度学习技术做更细微的判断。雷达软硬件技术深耕,应可以持续提升空间传感分辨率。

跨传感器间的融合(fusion)技术是最值得研究的,因为各种传感器都有其先天优略。不管是在原始信号上所做的前端融合技术(early fusion),或是侦查后期的后段融合(late fusion)等,如何在参数庞大的深度学习网络中释放这些信号的丰富信息,值得持续关注。而且边缘计算平台、传感器必须兼顾性价比,又是更大的挑战。不过,这些技术挑战,也正是空间感知技术典范转移的过程中,最迷人的地方了!我们当然也不缺席这个大好机会。

徐宏民(Winston Hsu)现任富智捷(MobileDrive)技术长暨副总经理以及台大信息工程学系教授。哥伦比亚大学电机博士,专精于机器学习、大规模影像视讯查找与识别。为讯连科技研发团队创始成员,慧景科技(thingnario)共同创始人,NVIDIA AI Lab计划主持人;曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会;十余年产学合作及新创经验。曾获2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018伪装人脸识别冠军、杰出信息人才奖、吴大猷先生纪念奖等国内外研究奖项。