机器人行为大跃进 结合人工智能的机器人技术与产业发展(上) 智能应用 影音
Digi-Key
Event

机器人行为大跃进 结合人工智能的机器人技术与产业发展(上)

  • 林佩莹台北

半导体的突飞猛进及生成式AI技术的突破,让沉寂一段时间的机器人发展,似乎突现一道亮光,高运算能力促使机器人的移动及感知能力大幅提升,不仅具有学习能力,动作也更流畅,将对全球产业与社会带来重大影响,备受关注。

在硬件算力的倍增以及演算法精进的推波助澜下,近年来人工智能(AI)又成为全球科技发展的镁光灯焦点,尤其是生成式AI。然而在各界积极投资布建算力的基础建设下,这个科技对产业与社会将带来什麽冲击?也引发许多推测及论述。尤其是如此庞大的投资势必需要产生具规模性的商业利益,或是对人类社会的进步有显着的影响。对于目前生成式AI投资所产生的报酬率,近来已经有不少分析和评论。例如高盛(Goldman Sachs)在2024年6月的全球总经研究报告[注1]就以「生成式AI:太多投资,太少回收?」为标题,预估接下来对生成式AI的投资将超过1万亿美元,然而文中访谈麻省理工学院的经济学教授阿杰姆奥卢(Daron Acemoğlu),就预测生成式AI在未来10年,对美国的生产力仅会提升0.53%~0.66%,反映到美国GDP成长也仅是0.99%。

AI算力猛进 提升机器人感知移动力

台湾在半导体以及电子产品制造的强大能力,无疑是这波设备投资中的受惠者,然而我们必须对其投资报酬偏低的预估有所警觉,同时对其可能的应用先期布局。人工智能专家简立峰博士在先前的文章中[注2],在避免生成式AI泡沫化的隐忧下,将云端庞大的算力导引到边缘运算(Edge Computing)应用,将可能是这个科技落地的方向,这其中一个重要的项目就是机器人。

为什麽机器人在这波AI的发展中这麽被重视,其原因可以追溯到1980至90年代的莫拉维克悖论(Moravec’s paradox)观念,当时很着名的人工智能及机器人学者如美国卡内基美浓大学的莫拉维克(Hans Moravec)教授,麻省理工学院的布鲁克斯教授(Rodney Brooks)及闵斯基教授(Marvin Minsky),一致感觉到电脑可以解决人类认为很困难的问题,如数学或物理的计算,但是却无法解决人类认为很容易的能力,如感知环境到采取移动。其实倒也不是电脑无法执行感知移动的功能,而是要达到人类这些能力所需要花费的算力,记忆容量及耗能,以当时的科技是无法达成的。

时至今日,半导体的突飞猛进及生成式AI技术的突破,似乎可以解决莫拉维克悖论所揭示的困境。而这种高层次的难题被解决,将对人类社会造成重大影响,也引发各界对于其应用与商机的想像。

机器人自主化 可修改目标适应环境

这一道曙光已经引发了新一波的投资,例如在2024年2月完成6.75亿美元B轮融资的新创公司Figure AI,估值已经高达26亿美元。包含特斯拉的Optimus以及波士顿动力,全世界至少有三十几个新创团队在开发结合大语言模型(LLM)与生成式AI技术的机器人产品。不论是哪一种形式的机器人,现今的重点都是强调自主化(Autonomy)。自主化与自动化(Automation)不同,自动化通常指的是机器人照着一套事先规划好的移动方案(或称剧本)去执行,而自主化则是机器人会根据目标去产生移动方案,而且在执行期间会去修改方案甚至修改目标去适应环境的变化。

举个简单的例子:「把保温杯装满热水」这个目标,牵涉一系列的动作如找到保温杯,找到热水来源,然后打开盖子、倒水等,如果这其中所有的环节都已经安排好,包含各物件的位置,如何打开盖子,与如何倒水的动作细节等,然后机器人照此执行,这就是自动化,即使这安排与实际状况有差异,如杯子摆放姿态不同,只要在机器人的传感器(如视觉)可以侦测的范围,都可以透过修正来执行。而所谓的自动化,就是机器人对这赋予的移动方案,可以一直重复执行而无需人为介入。

从这个例子,读者一定会感到疑惑,「把保温杯装满热水」付诸移动,对人类是再容易不过的,而且几乎是不需要用脑思考,尤有甚者,即使保温杯的盖子有不同的扣合方式,人类都可以很快的就观察了解而适应,为什麽对计算能力超强的电脑而言是困难的?这就是莫拉维克悖论所持的观点,也是长久以来困扰着机器人研究界的重大议题。想像我们每天的生活和工作(包含工厂产品制造),随处都是这种从目标到移动的行为,如果每件事都要去替机器人规划,其用途就非常局限,无怪乎目前大部分的机器人,都还是在工厂执行事前规划好且重复性的工作。

这个困扰在大语言模型的生成式AI技术突破后,似乎看到了解决的可能性。如果去ChatGPT问:「假设你是机器人,你怎麽把保温杯装满热水?」所得到的回答会让人感到很神奇,它会很准确地列出所有的步骤:

1.定位保温杯:使用视觉或定位系统确定保温杯的位置,确保杯子是空的并且放在稳定的表面上。
2.检查水源:确保有足够的热水供应,比如热水壶或热水机。
3.启动热水供应系统:如果需要加热水,启动热水机或热水壶,将水加热到合适的温度。
4.取水容器:抓取或操作热水壶的手柄,确保稳固握住。
5.倾倒热水:将热水壶的嘴对准保温杯的开口,缓慢倾倒,确保水流稳定且不溢出。
6.监控水位:使用传感器或视觉系统监控保温杯的水位,确保不超过杯子的容量。
7.停止倒水:当保温杯装满时,停止倾倒热水,将热水壶恢复到原位。
8.确保安全:检查是否有任何水溢出或滴落,清理可能存在的水渍,确保环境乾燥且安全。

对机器人工程师而言,这些步骤距离机器人可执行的移动命令似乎相距不远了。而且对于许许多多封闭式目标(Closed-end Target),也就是目标有清楚且可以被检验的产出,大语言模型都可以给出明确的执行步骤。可是仔细解析,这些文字描述的步骤到机器人的移动,仍然存在着许多问题需要解决,其中最关键的就是机器人的行为能力(Behavior)。

「行为」所定义的范围很广,这里的行为指的是机器人面对其所处的环境,要达到某个目的时所需要执行的移动。例如上述步骤4,机器人如何确认热水壶的种类并决定要怎麽稳固的抓取?怎麽确定是稳固的?又如步骤5,机器人如何控制其手部动作,使热水以稳定且适当的流速倒入杯中?辉达的黄仁勳CEO在2024年Wired杂志专访时,乐观看待人型机器人发展时下的注解(原文翻译)[注3]

「如果你可以生成文本,如果你可以生成图像,你也可以生成动作吗?答案可能是肯定的。然后,如果你可以产生动作,你就可以理解意图并产生通用版本的关节动作。因此,人形机器人技术应该指日可待。」

这里的动作,就是上述机器人的行为。基于大语言模型的成功,人类是否可以用同样的手法建构大行为模型(Large Behavior Model;LBM),就是生成式AI的下一个挑战。

大行为模型 算力需求庞大

如同LLM一样,LBM需要大量且标记好的行为数据(包含与环境互动的纪录),最直觉的方法就是示范学习(Learning by Demonstration)。史丹佛大学的团队在GitHub上就展示了这个方法[注4],研究人员穿戴与机器人结构相同的教导器,遥控机器人执行各种动作,而机器人将此动作与摄影机影像同时录制下来,就构成了可供训练的数据,也就是训练类神经网络,由影像信息(环境感知)去产生运动命令,完成特定行为。乍看之下似乎没什麽困难,但是训练的目的不是要机器人复制动作,而是要认知这个一系列动作的意义,进而可以对类似的环境与工作生成相对应的动作。这种类似举一反三的能力建构,就是示范学习要去研发的重点,电脑必须从录制的传感与动作信息,以及其结果进行认知的训练。

认知的部分目前是借助快速发展的视觉语言模型(Vision Language Model;VLM)。VLM是从同步图像和文字输入中学习的多模态生成式模型,然后产生具各种意义的文字输出。大型VLM的能力包括对影像内容的讨论(看图说故事)、透过文字指令进行影像识别、视觉问答与文件理解等。一些VLM还可以捕捉影像中的空间属性,例如定位不同的物体,以及其相对或绝对位置的信息。

换句话说,VLM可以提供机器人透过摄影机,对环境、物体以及空间关系的认知。回到上述示范学习录制的数据,就可以透过VLM产生文字描述,然后再建构一个类神经网络模型去学习此文字描述与机器人的动作的关系。采取这个策略最积极的就是Google RT-2计划,Google称此为视觉语言移动(Vision Language Action;VLA)。以这个技术策略去达到通用化是许多团队竞逐的目标,包含VLM本身的认知能力,产生的文字信息是否足以对应移动的产生,如何泛用到不同的机器人结构等。

更重要的是,需要经过机器人实际操作的过程回授,来微调这个模型。因为机器人的动作是连续的,而且需要很高的精准度才能达到动作目标,所以VLM等模型要在回授过程中不断计算产生实时反应,因此算力的需求很庞大。综合上述,以目前芯片与电脑系统的速度和成本,短期内每台机器人拥有独立运算的泛用化LBM几乎不可能,这也产生怎麽结合云端与边缘运算的技术想像空间。

注1:Goldman Sachs Research, “Gen AI: Too much spend, too little benefit ? ” Jun. 25,2024.
注2:简立峰,「专注两大关键!小心台湾 AI 泡沫化」,远见杂志,2024 年 7 月4 日。
注3:”Nvidia Hardware Is Eating the World,” interview with Jansen Huang, Wired, Feb. 3, 2024.
注4:Mobile ALOHA,Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation 

(本文作者工研院副院长胡竹生,转载自智能自动化产业期刊,DIGITIMES林佩莹整理报导)