startup
Seagate

机械手臂与3D立体视觉

  • 徐宏民

深度学习搭配3D传感器,将能提升机械手臂的生产效率。KUKA

近年来协作型机械手臂大幅成长,人机协作也成了生产线的未来态势。

工业用机械手臂近年来快速成长,原因除了价格已被市场接受外,主要是可以提升营运效率,不管是在仓储或是各种生产线。此外,当然还有缺工因素,特别是工作环境较恶劣的厂房,或是必须24小时轮班的生产线。

计算机视觉技术为机械手臂开光,可以进行更复杂的任务,不管是物件取放、涂胶、或是检测工作,都可以看到机械手臂所提供的制造优势。而3D立体视觉为机械手臂最重要的视觉来源,因为在运行的过程中需要非常精准的3D定位。

如以机器手臂抓取为例,可以分为两个技术范畴:「感知」(perception)与「路径规划」(planning)。前者透过视觉推估物件的位置、姿态、可能抓取点等;后者则是推估如何移动手臂上的关节来接近物件,避开可能的障碍。可以想见3D传感器在这里扮演了非常重要的角色。

抓取点侦测(grasp detection)为机械手臂建置时的关键技术,必须准确且快速地找到物件抓取位置。传统方法需要先给定被抓取物的3D模型(如CAD),将这个模型比对套到3D传感器所拍摄到的点云当中,如透过类似ICP (Iterative Closest Point)的算法,接著使用模型上缺省抓取位置。可以想象这样的做法在稀疏的点云上会有很大的问题,特别是在多个物体堆叠的情况之下,遮蔽或是只看到部分物件,模型比对会有相当大的挑战。而最大的障碍是只能抓取「预先给定」的物件,这大大限制了工业布建的扩充性。

随著计算机视觉技术的突破,抓取点侦测被转化为类似物件侦测的工作,在输入的RGB-D (2.5D)或是点云3D资料中,先产生相当多的候选抓取点(grasp proposal),接著利用深度学习网络选取适合的抓取点,无需事先给定3D模型。当然这是属于监督式学习的工作,必须先标注训练资料的抓取点。

在实际的应用上,需要找出多个可能抓取位置。因为物体原本就有多个抓取点,或是在路径规划过程中,某些抓取点手臂无法到达,或是可能会撞击其它物件,特别是在复杂的真实环境中,所以候选抓取点的多样性很重要。

这几年来,深度学习技术也推升了机械手臂智能化。已在诸多关键技术上大大提升正确性、稳定度、以及速度,特别是结合3D点云运算,让机械手臂抓取的工作可以落实到各种应用场域并降低布建时间。除了使用深度学习算法由大量的候选抓取点中找出适合的抓取位置外,这些候选抓取点也可以透过GAN的生成网络,产生多样性的可能位置,这比随机生成有效率多了。

目前也倾向在模拟环境中训练,避免旷日费时的场域资料收集。当然在布建时可以利用之前提过的「跨域算法」(cross-domain learning)来解决模拟环境以及真实场域间的误差。目前在模拟环境中,研究人员更尝试各种自我监督学习(self-supervised learning)甚至是强化学习(reinforcement learning)方式提升3D视觉技术,更积极的避免使用高成本以及数量有限的训练资料标注。

工业4.0是制造业未来的标竿。搭配目前深度学习技术的突破以及3D传感器的发展,机械手臂在生产效率以及成本考量下,一定会扮演关键的角色。智能化的制造技术,绝对是维持产业竞争力的终极武器。

徐宏民(Winston Hsu)现任台大资工系教授及NVIDIA AI Lab计画主持人。哥伦比亚大学电机博士,专精于机器学习、大规模影像视讯查找与辨识。为讯连科技研发团队创始成员,慧景科技(工业智能新创)共同创办人;曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会;十余年产学合作及新创经验,近年致力将深度学习技术落实到产业,并协助成立研究开发团队。曾获2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018伪装人脸辨识冠军、杰出信息人才奖、吴大猷先生纪念奖等国内外研究奖项。