智能应用 影音
EVmember
DForum0515

软件吃掉硬件的自驾技术

自驾技术几个重要模块:感知、预测、以及规划等都需要庞大的训练数据。Lyft

随着自驾技术的发展,许多的团队把技术的眼光专注在可扩展性(scalability)上,希望将技术转换为自驾产品时,能具有合理成本,如硬件稳定度高、价格可以被市场接受、在可见的时间内获利,以及能以低人力或时间成本,转移到不一样的场域或国家。如为无人出租车(robotaxi)开发的自驾技术可以使用在个人自驾车,或是在旧金山通行的自驾能力,也可以无痛在台北使用。

可扩展性确保所开发的技术不是在封闭场域内的概念展示,而是扎扎实实的成为被大众使用的商品。这当然是非常大的挑战,特别是自驾技术四大模块中的「感知」与「预测」,如何稳定的调适在不同的场域中,善用高性价比的硬件。而软件(智能技术)在这个面向扮演了关键的角色。

为了成本,Tesla首先主张不使用激光雷达(LiDAR),大致可以被接受,因为价格以及长久使用的稳定性还没解决。最近Tesla甚至主张不使用雷达(Radar),这样的论调对于产业界或是学界而言,都出乎意料之外,甚至高度怀疑可行性。

最近在顶尖电脑视觉会议CVPR的自驾车论坛上,Tesla深度学习技术负责人Andrej Karpathy说明他们如何善用全视觉的技术,完全扬弃雷达、或是一般业界时常使用的LiDAR。

他们使用了8个镜头(分辨率1024x768,每秒36帧)担纲自驾技术最关键的感知(理解环境)以及预测(未来变化)信号源。他们强调这样的信息量已非常庞大,而且很自豪的利用深度学习技术来推估非常重要的深度、物件侦测、物件速度等,不需要之前常仰赖的雷达或是其他信号源了。有趣的是,最近有两个国际研究团队也在发表的学术论文中,呼应了类似的想法。

以软件吃掉硬件,付出的代价是设计特殊庞大的深度学习网络、使用大量训练数据。8个摄影画面同时输入网络运算,利用镜头间视角差、时间差的特性推估环境感知,使用类似transformer的网络结构,采用end-to-end、multitasking这些设计策略,让网络协同完成复杂的工作。

可以想像训练数据扮演了关键的角色,他们采行的策略是:(1)使用大量的训练数据,(2)乾净的数据标注:物件、速度、深度、加速度等,(3)多样性的数据:各种天气、场景、甚至包含许多不常见的特殊案例。但是这些大量训练数据不是靠昂贵费时的人工标记,而是利用其他演算法自动标注,以时间来换取数据标注品质,例如使用耗时的物件追踪技术,这样的优点是即使是逆光、起雾、下雪时,物件侦测信心度降低,追踪技术还是可以辅助标注品质。以此方法收集约100万个10秒长度的训练样本,大概占1.5PB的数据。

为了训练这个高功能的深度学习网络,他们在公司内部建建制超级电脑,使用将近6,000片GPU(A100)。为了应付庞大的实时驾驶计算,行车电脑包含了12个CPU,1颗GPU(600 GFLOPS,FP32/FP64),2颗NPU,每颗算力36.86 TOPS (int8)。

智能技术正在转化汽车产业,甚至是人类的生活方式。当更多智能技术逐渐落实在交通工具上时,我们考量的计算平台不再只是服务器、平板、笔记本电脑、手机等。这个世界的技术正在定义新的(移动)技术平台,多少算力、如何计算、传感器如何串联通讯、存储器、带宽、耗能要求等。当然还不到量大的时候,但是「扩展性」已经是技术专注的标的了,我们还可以袖手旁观吗?

徐宏民(Winston Hsu)现任富智捷(MobileDrive)技术长暨副总经理以及台大信息工程学系教授。哥伦比亚大学电机博士,专精于机器学习、大规模影像视讯查找与识别。为讯连科技研发团队创始成员,慧景科技(thingnario)共同创始人,NVIDIA AI Lab计划主持人;曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会;十余年产学合作及新创经验。曾获2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018伪装人脸识别冠军、杰出信息人才奖、吴大猷先生纪念奖等国内外研究奖项。