降低自驾技术数据成本

徐宏民
2021-07-20
分享
Line

3D点云数据十分难标注，不管是室内(如结构光)或是室外(LiDAR)等。徐宏民提供

前面的文章提到Tesla之所以能抛弃雷达(Radar)或是激光雷达(LiDAR)而使用全视觉的技术，其中一个要素是使用大量的训练质料来提升「感知」以及「预测」能力。另一个自驾团队Lyft Level 5近期研究也发现足够的训练数据可以大大提升自驾品质：在预测的工作上如果训练数据由10小时提升为1,000小时，每1,000英里自驾出错机率会降为11分之1。训练数据在自驾上扮演了关键的角色，特别是目前的演算法都采用了以深度学习为基础的架构。

更新了自驾智能模型设计后，如何评估效能？最直觉的方式就是开车子上路测试。但是这样的方式很不符合经济效益，测试的时间冗长、风险太高、而且中间出错的状况很难复制追踪。所以目前大多使用行车纪录或是(3D)行车模拟器，作为训练或是测试数据(场景)，而且大部分都是混合搭配。

录制的行车数据，可以利用模仿学习(imitation learning)的方式，让自驾系统学习人类的驾车方式，一般可以达到不错的结果，但是在某些特殊案例，时常出现不可预测的反应。Waymo团队发现，原因是这些长时间收录的驾驶数据，都是符合法规的安全驾驶，没有意外、违规等负样本。解法是可以使用数据增的方式产生某些负样本(例如让车辆闯红灯、撞上前车、偏离车道等)，来协助训练效果。

训练自驾技术不仅需录制的大量原始信号，还需标注这些物件的3D位置、方向、速度等。而这些标注的取得十分昂贵，我们的经验是3D数据(如点云)并不是容易观看的数据形式，时常得在多个视角切换，费时费力。

为降低时间以及人力成本，自动数据标注是很多团队正在努力的方向。Tesla日前宣称采用了庞大的自动标注训练数据，Waymo团队最近发表Auto Labeling技术，也呼应了Tesla的看法。因为数据标注不需要实时性，可以在后端利用较复杂的演算法(如物件追踪)，并统合多个时间点对同一个物件的传感，改进自动标注的正确性。实验显示，多时间的标注远高于目前最好的3D物件侦测技术；更有意思的是，提出的自动标注技术与人工的品质相当。自动标注的潜力应该还有更大的发挥空间。

按照过往数据增的策略，我们可以生成更多的自驾训练数据，一般是透过：(1)数据编修、(2)内容转换、以及(3)新数据生成。编修既有的场景，加上需要的物件(事件)，如加入一辆闯红灯的跑车，或是逆向行驶的货车，模拟对意外的应变能力。但是加入的物件必须与场景完全融合，光线、大小、甚至遮蔽等必须合乎自然，可以想像有非常多的面向必须考量。利用耗时的人工编修，当然可以达到目的，但不是具有扩充性的做法，最近Uber UTG团队所提出的GeoSim，由深度学习技术自动编修，开启更多的可能性。

同样的也可以采用风格转换的方式将白天转换为黄昏、阴天，或是不同的季节，相关技术这几年都有很多讨论实做。在交通数据生成的方面，可以参考既有的交通流量，生成更多的训练数据，不只是生成交通物件移动矢量(如SimNet)，甚至是自驾场景等都有所尝试(如DriveGAN)，也看到这些研究在降低自驾训练以及测试成本所带来的机会。

就模拟软件而言，CLARA或是类似的模拟平台都是许多开发团队所使用的，3D模拟软件方便安置各样的物件，或是模拟车上的感知元件，方便使用，但是场景有限，数据的多样性是最大的限制。模拟平台又有sim2real，由模拟环境跨到真实领域的问题，目前不管在机械手臂、自驾车、或是电脑视觉的研究中，针对这样的问题，都有许多跨领域学习调适(cross-domain learning)的方式可以着力。

自驾技术的演进，已经跨过技术概念展示的阶段。所有顶尖团队目前专注的都是如何将这些技术，以具有扩展性的方式，落地为未来可以获利的产品。也代表者智能车辆(甚至是智能城市)变革不再只是实验室内的讨论，而即将逐一在产业发酵，带来软硬件的变革。在新产业驱动的同时，我们要扮演怎样的角色，其实还是有选择的机会，但也时间不多了。

徐宏民
台大资工系教授

徐宏民(Winston Hsu)现任富智捷(MobileDrive)技术长暨副总经理以及台大信息工程学系教授。哥伦比亚大学电机博士，专精于机器学习、大规模影像视讯查找与识别。为讯连科技研发团队创始成员，慧景科技(thingnario)共同创始人，NVIDIA AI Lab计划主持人；曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会；十余年产学合作及新创经验。曾获2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018伪装人脸识别冠军、杰出信息人才奖、吴大猷先生纪念奖等国内外研究奖项。