前面的文章提到Tesla之所以能抛弃雷达(Radar)或是激光雷达(LiDAR)而使用全视觉的技术,其中一个要素是使用大量的训练质料来提升「感知」以及「预测」能力。另一个自驾团队Lyft Level 5近期研究也发现足够的训练数据可以大大提升自驾品质:在预测的工作上如果训练数据由10小时提升为1,000小时,每1,000英里自驾出错机率会降为11分之1。训练数据在自驾上扮演了关键的角色,特别是目前的演算法都采用了以深度学习为基础的架构。
更新了自驾智能模型设计后,如何评估效能?最直觉的方式就是开车子上路测试。但是这样的方式很不符合经济效益,测试的时间冗长、风险太高、而且中间出错的状况很难复制追踪。所以目前大多使用行车纪录或是(3D)行车模拟器,作为训练或是测试数据(场景),而且大部分都是混合搭配。
录制的行车数据,可以利用模仿学习(imitation learning)的方式,让自驾系统学习人类的驾车方式,一般可以达到不错的结果,但是在某些特殊案例,时常出现不可预测的反应。Waymo团队发现,原因是这些长时间收录的驾驶数据,都是符合法规的安全驾驶,没有意外、违规等负样本。解法是可以使用数据增的方式产生某些负样本(例如让车辆闯红灯、撞上前车、偏离车道等),来协助训练效果。
训练自驾技术不仅需录制的大量原始信号,还需标注这些物件的3D位置、方向、速度等。而这些标注的取得十分昂贵,我们的经验是3D数据(如点云)并不是容易观看的数据形式,时常得在多个视角切换,费时费力。
为降低时间以及人力成本,自动数据标注是很多团队正在努力的方向。Tesla日前宣称采用了庞大的自动标注训练数据,Waymo团队最近发表Auto Labeling技术,也呼应了Tesla的看法。因为数据标注不需要实时性,可以在后端利用较复杂的演算法(如物件追踪),并统合多个时间点对同一个物件的传感,改进自动标注的正确性。实验显示,多时间的标注远高于目前最好的3D物件侦测技术;更有意思的是,提出的自动标注技术与人工的品质相当。自动标注的潜力应该还有更大的发挥空间。
按照过往数据增的策略,我们可以生成更多的自驾训练数据,一般是透过:(1)数据编修、(2)内容转换、以及(3)新数据生成。编修既有的场景,加上需要的物件(事件),如加入一辆闯红灯的跑车,或是逆向行驶的货车,模拟对意外的应变能力。但是加入的物件必须与场景完全融合,光线、大小、甚至遮蔽等必须合乎自然,可以想像有非常多的面向必须考量。利用耗时的人工编修,当然可以达到目的,但不是具有扩充性的做法,最近Uber UTG团队所提出的GeoSim,由深度学习技术自动编修,开启更多的可能性。
同样的也可以采用风格转换的方式将白天转换为黄昏、阴天,或是不同的季节,相关技术这几年都有很多讨论实做。在交通数据生成的方面,可以参考既有的交通流量,生成更多的训练数据,不只是生成交通物件移动矢量(如SimNet),甚至是自驾场景等都有所尝试(如DriveGAN),也看到这些研究在降低自驾训练以及测试成本所带来的机会。
就模拟软件而言,CLARA或是类似的模拟平台都是许多开发团队所使用的,3D模拟软件方便安置各样的物件,或是模拟车上的感知元件,方便使用,但是场景有限,数据的多样性是最大的限制。模拟平台又有sim2real,由模拟环境跨到真实领域的问题,目前不管在机械手臂、自驾车、或是电脑视觉的研究中,针对这样的问题,都有许多跨领域学习调适(cross-domain learning)的方式可以着力。
自驾技术的演进,已经跨过技术概念展示的阶段。所有顶尖团队目前专注的都是如何将这些技术,以具有扩展性的方式,落地为未来可以获利的产品。也代表者智能车辆(甚至是智能城市)变革不再只是实验室内的讨论,而即将逐一在产业发酵,带来软硬件的变革。在新产业驱动的同时,我们要扮演怎样的角色,其实还是有选择的机会,但也时间不多了。
徐宏民(Winston Hsu)现任富智捷(MobileDrive)技术长暨副总经理以及台大信息工程学系教授。哥伦比亚大学电机博士,专精于机器学习、大规模影像视讯查找与识别。为讯连科技研发团队创始成员,慧景科技(thingnario)共同创始人,NVIDIA AI Lab计划主持人;曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会;十余年产学合作及新创经验。曾获2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018伪装人脸识别冠军、杰出信息人才奖、吴大猷先生纪念奖等国内外研究奖项。