智能应用 影音
TERADYNE
member

Tesla为何自己设计芯片?

Tesla电动车的8颗摄影机配置。撷取自Tesla网站

Tesla前些日子召开AI Day,揭露他们在自驾车未来的AI软件以及芯片布局。目前市值最高的汽车品牌,在乎的技术是AI软件以及运算芯片上的突破。前几年还不清楚为何Tesla抱怨车用芯片供应商提供的芯片不敷需求,要自己设计,几年之后他们推出自己的车用芯片,包含了12个CPU,一颗GPU,2颗NPU (每颗算力36.86 TOPS)。而原因日益明朗:深度软硬整合。

出人意料的,Tesla宣布Dojo计划,正在开发后端训练深度学习网络所须的AI服务器,其中主要芯片D1。虽然宣称与竞争对手相比有4倍的效能、1.3倍效能功耗比,但是Dojo还在开发中,成效如何还不知道。如同Elon Musk所言,Dojo成功与否,在于是否能替换目前已投资庞大的GPU超级电脑(算力世界排名第五)。所以对GPU在后端运算的影响还有待观察。

为何Tesla要设计自己的芯片?透过电动车垂直领域的掌控,亲自嚐到「数码化」以及「AI化」对于自身产品设计、服务竞争力的重要性。企图采用top down的方式提供高度软硬件整合的产品。而且目前所开发的自驾技术(介于Level 2~3之间),提供与竞争对手最大的差异化。庞大、复制的AI演算法,需要有相匹配的芯片配合,外部供应商趋向于通用的配置,很难优化。

自驾技术4个关键模块:感知、预测、规划以及控制,在会议中也披露更多这些模块设计的技术细节。

感知模块是关键,他们再次强调Tesla的全视觉演算法(8颗镜头,不使用激光雷达或是雷达),虽然听起来诧异,近来其他团队的研究也证实,全视觉的做法是可行的。镜头使用RAW格式作为输入,使用标准的卷积网络(CNN)来分析画面内容。他们强调信号来源是RAW格式而不使用现行ISP处理完之后的影像,这也跟我们的观察一致,因为RAW保有更多的传感信息(虽然也含有杂讯),详细讨论请参考前文〈翻新ISP设计〉

使用Transformer类型的演算法(也是目前许多文字、对话常使用的机制)来结合跨镜头间的观察,侦测出道路以及环境状态:包括物件类别、位置、标线、分隔岛、号志、十字路口、各种标志灯号等。使用Transformer的原因是跨镜头间所观察到的部分结构,有机会在另一个画面中比对,找出相对关系,而以此逐一重建自驾所需的各种语意信息:可以想像行进间使用演算法实时画出引导车辆行驶的鸟瞰图。

演算法的稳固性十分重要。大量使用电脑绘图模拟各个场域环境、灯光、恶劣天气,还有极少数的情境(如有人带着狗在高速公路跑步),加强训练,增加系统稳固性。训练数据涵盖营运中的50个国家,但是他们强调演算法的训练是region-agnostic(独立于国家或是区域之外),因为人类在驾驶时的环境感知本来就不受区域的限制。

预测需要考量侦测结果以及时间上的变化,所以很自然的,使用考量时间序列的深度学习网络来吸纳物件动态变化,可以想像这样的结果可以大大提升个别画面预测结果的稳固性。这也与大家在驾驶时的经验吻合,如果已经观察到某些车辆的移动轨迹,即使有其他车辆暂时遮蔽、或是在大雨、浓雾中,我们还是可以大致推估对方可能的位置。

自驾技术4个关键模块并不是end-to-end一口气做完,虽然目前学术研究发现这样的效能会比较好,但是Tesla团队提到还有许多技术尚待克服。采用的做法是感知结合预测模块,一起做完之后,将多个物件的侦测结果以及未来的路径预测交给之后的「规划」以及「控制」模块,完成自驾。

汽车产业进入典范专业,软件逐渐吃掉汽车硬件(参考前文〈软件吃掉硬件的自驾技术〉)。Tesla掌握电动车垂直领域,利用软硬整合,开发专属的ASIC芯片,拉大与其他OEM之间的差异。这样的模式并不陌生,苹果(Apple)在手机领域也是如此操作。如此看来,是否有其他产业领先者也需要自行设计芯片呢?这对台湾的供应链会有怎样的影响?在许多国内的电子零件供应商想抢食汽车产业大饼时,这样的变化,对于未来供应链的预测是有迹可循,还是多了不确定性?

徐宏民(Winston Hsu)现任富智捷(MobileDrive)技术长暨副总经理以及台大信息工程学系教授。哥伦比亚大学电机博士,专精于机器学习、大规模影像视讯查找与识别。为讯连科技研发团队创始成员,慧景科技(thingnario)共同创始人,NVIDIA AI Lab计划主持人;曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会;十余年产学合作及新创经验。曾获2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018伪装人脸识别冠军、杰出信息人才奖、吴大猷先生纪念奖等国内外研究奖项。