人型机器人成为未来新星 结合人工智能的机器人技术与产业发展(下)
各国政府及企业均积极又谨慎地面对机器人对社会与产业带来的冲击,赋予人工智能的人型机器人更是被重视的焦点。台湾在半导体与资通讯产品的制造能力,已在数据与AI服务器上居于全球关键地位,更应积极打造机器人产业相关供应链,为台湾立稳未来发展根基。
如果每个行为都要实体示范学习,所需要的时间成本及资源太过庞大,因此必须要找到方法使机器人可以基于既有的示范教导,自我学习去扩张其能力。这个自我学习的环境基本上会采用数码孪生(Digital Twin)的技术,也就是用电脑模拟真实环境(包含机器人),例如NVIDIA的Isaac Sim。因为是在虚拟空间,所以可以有不同的策略去建构行为模型,例如可以使用强化学习方法,在虚拟空间尝试错误去收敛。这当然会省去大量示范学习所需的资源,但是要建构不同目的的拟真环境,仍然是很庞大的工作以及算力的需求。值得一提的是,行为模型与机器人的硬件结构有密切关系,所以泛用化的模型还需要考虑适用的机器人范围,或是有方法去转换到不同的机器人结构。这个方面也是目前研发的重点。
机器人产业应用市场策略
目前去发展机器人行为能力于产业应用,分为垂直市场及水平市场2个策略。垂直市场就是针对特定应用范围或场域,建构1个小型的行为模型,这就是如Figure AI等机器人新创公司的诉求,以制造、物流、仓储以及零售的应用为主要标的。值得注意的是这些领域已经运用大量的机器人,且过去十几年也导入人机协作来解决机器人自主性不足的问题。因此新型态机器人的价值主张如何吸引使用者采用,需要密切观察。针对水平市场的策略则是如前述,主要在研发机器人的自我学习技术,能够泛用到各种场域的行为能力建构。在机器人学术领域,这能力是以机器人是否能完成长时任务(Long Horizon Tasks;LHT)来定义:在具延续性与扩张性的移动及环境互动中,所需要维持的情境,关联性与连贯性,以及目标导向的行为。
不少专家认为这与建构通用人工智能(Artificial General Intelligence)息息相关,因为需要机器人具备自我教导与自我学习的能力。简单来说,这个基础模型(Foundation Model)需要能持续的探索、萃取、记忆以及推论机器人传感器所获得的信息与特徵。最明显的例子就是人类对环境的熟悉能力,包含在该环境内做某些事该去哪些地方、拿那些物件等。所以有人认为行为能力就是机器人具备空间智能(Spatial Intelligence)。即使水平市场策略看来困难重重,仍然吸引了大量投资,例如前卡内基美隆大学教授Deepak Pathak和Abhinav Gupta在2022年成立的新创公司Skild,目前估值已达15亿美元,以及在2024年4月由史丹佛大学李飞飞教授成立的World Labs,首轮获得1亿美元的注资,都在朝这个目标努力。
接续前文所述,机器人的行为能力与其结构及机电系统密切相关,这在生物界已经获得很多印证,例如蚂蚁在微小的体积与力量下,发展出的群体智能行为来适应大自然的环境等。而人类智能累积下建立的社会,与人的肢体结构与能力息息相关,包含建筑、工具,以及各种人机界面等。因此这一波机器人的发展,许多均以拟人化的人型机器人为出发点。虽然也有不少人对于发展人型机器人持有不同观点,但是从极大化其应用范围的商业产品设计策略,不得不承认人型就长远发展来说是最佳的选择。
但是如果要完全复制人类运动的自由度,所需要的成本非常高且设计难度很大,所以基本上要从其应用的目的来定义其规格与数量。目前研发上的发展大致上分2个方向,第一个方向是技术能力展示,例如设计机器人可以做出一般人不易达到的动作或是极限运动,美国波士顿动力(Boston Dynamics)的机器人就是一例,除了军事目的或是要在恶劣环境下生存外,比较很难想像在一般用途下的成本效益。第二个方向就是从应用出发来设计,例如工厂或物流仓库的拣货及搬运等。
前述的垂直市场方向是值得我们关注的,但是如果用人的能力来想像这类机器人,有些可能言之过早,例如从摺衣服或是洗碗等展示就想像家事服务的市场等。因为家庭环境及生活的变异很大,各种工作琐碎复杂,目前尚且无法清楚定义其工程规格,遑论前述的人工智能要发展到何种地步才能支持这个产品。如果限缩在制造等应用,其主要的诉求就是解决缺工问题,因为全球劳动力短缺已经是普遍现象。对于大型制造或是物流等企业,这是很有诱因的投资。所以即使Tesla的Optimus机器人诉求家用,首先还是在2024年6月宣布有2台机器人导入其电动车生产工厂。
然而人型机器人导入在极度讲求成本效率的制造业,必须能将全部或是部分流程完全无人化,否则也只是现有自动化设备以及服务供应商的边际效益提升,影响有限。所以合理的推论是机器人能够操作既有的生产设备以及使用各种工具去完成工作。例如工厂内的搬运自动化,使机器人可以驾驶普通的搬运车,相较于把搬运车改装为自主驾驶,前者更具吸引力,因为机器人还可以做其他工作。同时也只有在限制范围内先证明人型机器人可实际应用,才能进展到下一步的泛用化。
如果机器人执行的工作及环境是有范围限制的,一个基本的问题是人型是否这麽重要?还是选择性仿制部分人类的运动自由度与传感器?首先人体的运动自由度是冗余设计,也就是说人体可以有多余的自由度去完成大部分动作。除了机构的冗余,控制人体运动的肌肉以及关节也是冗余的,也就是某些关节的运动是可以由不同的肌肉收缩组合去产生。更令人惊叹的是,控制肌肉的神经也是冗余的。这种非常高冗余度的系统,使得人类从大脑决策到实际动作,中间几乎有无限多的路径,人类得以在学习过程中去优化其控制路径,产生平顺,细腻甚至优雅的肢体动作,以目前机器人技术,这是无法去模仿的。
人型机器人需高度软硬整合
回到本文的主题,该选择那些自由度以及其规格,才能满足应用需求同时兼顾成本效益。一般而言离不开移动(Mobility)以及操控(Manipulation)2项技术。移动上大致是轮式以及足式2种型态,双足机器人是目前许多新创公司的诉求,相较于轮式,双足的移动的敏捷性高(例如在狭窄且有障碍空间),尤其是可以适应人类的环境,如阶梯等。但是其成本高且稳定性低,在平坦的硬地上,轮式在移动单位重量的能耗较低,承载能力较高且移动速度快。所以在有限范围可控的场域,其实轮式机器人是比较有优势的。然而不可讳言的,如果前述大行为模型可以囊括各种空间移动与工具操作的能力(例如操作堆高机等),双足机器人的应用范围是更广的。
在操控上的技术追求的是有如人手一般的灵巧性(Dexterity),若不含腕关节,人类的手掌加手指有21个自由度,再者,人手的灵巧性仰赖密布在手掌与手指的触觉神经感知。从技术的角度而言,这是一个数量庞大且互相耦合的传感驱动控制回路(Sensory Control Feedback Loop)。以往工业机器人的夹爪是以抓取为目的,因此顶多设计到3根指头,大部分用2根即可。再者,这些手爪都是刚硬的,无法对物体产生包覆性夹持,也很难在手部改变物体的姿态。对于无法稳定夹持的工件,可以设计周边机构、吸盘,或是磁铁来辅助。
也就是说,如果人型机器人的手仍然是如以往的简单设计,没有灵巧性,其实人型设计没有太多市场竞争力。过去学术界以及部分产业界已经有许多仿生的手爪机构与驱动设计,包含运用软性材料,但是在触觉传感方面仍然不足。人类皮肤触觉包含压力、温度、震动,以及剪力(感知所抓取的物体有朝某方向移动的倾向)。目前在单点上整合这些传感器(如指尖)已经不是问题,但是要布满整个手掌仍然不容易。因此在较低的关节自由度以及少量的触觉感知器下,极大化其灵巧性方能够扩大应用范围。由前述LBM在建立过程需要与机器人的硬件结构配合,虽然大语言模型(LLM)已经证明了通用于各国语言的建构方法,但是仍需要不同语言的大量语料收集。因此人型机器人的智能性在短期内一定是高度的软硬整合,是否能够发展出一个与硬件无关的基础行为模型,目前看来仍是个未知数。
机器人产业的新挑战
人工智能的浪潮席卷全球,各国政府及企业均积极又谨慎地面对其对社会与产业带来的冲击,赋予人工智能的人型机器人是这波发展中相当被重视的焦点。大语言模型(LLM)赋予机器人自然语言的理解能力,从而对目标解析与工作规划等有一定程度的自主性。然而到付诸移动,机器人的行为能力必须面对各种环境变异,这就产生了大行为模型(LBM)的技术追求。LBM的建构相较于LLM在实务上困难许多,而且可能离不开高度的软硬整合。因为完全复制人类复杂的关节,肌肉与感知等机制几乎不可能,所有的人型机器人都是所谓的降阶设计(Reduced Order Design),而且必须与应用结合,才能在未来几年内有商业化的机会。
台湾在半导体与资通讯产品的制造能力,已经在数据与AI服务器上居于全球的关键地位,未来人型机器人显然会增加这类服务器的需求。然而人型机器人在驱动器、传感器、通讯界面,以及边缘运算系统上,将可能有不小的产业规模。在零组件小型化(如驱动器的功率密度提升,传感器微小化等),节能、耐久性以及成本上,仍有不小的改进空间。这个新的机电产品市场,需要精密机械与资通讯技术的高度整合,台湾宜在既有的基础上,积极投资去建构在这个供应链中的影响力。尤其是在人型机器人的运动、平衡,以及手部灵巧性的控制上是关键技术,过往在学术与产业的研发上着墨甚少,应可积极规划投入。
最后,我们不能忽视具备新一代人工智能的人型机器人问世,其高度自主性与学习能力将可能彻底改变在制造与服务业上的竞争与劳动力版图。所幸这看来是一个渐进的过程,各界仍需要密切注意其发展与技术突破,制定因应对策。
(本文作者工研院副院长胡竹生,转载自智能自动化产业期刊,DIGITIMES林佩莹整理报导)