具身推理:机器人也开始深度思考了

徐宏民
2026-05-26
AI语音摘要
00:51

过去一年多,大型语言模型(LLM)的「推理」已成为主流模型的标准配置。从2024年下半开始,长思考链与强化学习训练逐渐在各主流模型中普及,在程序设计、数学、法律、医疗等信息密集的领域确实展现效果。

这套能力的基础,在于语言世界本身提供大量训练素材,而且推理的对错可以被直接验证。

传统工业机器人从来不需要推理。它们的设计前提清楚:事先设定动作序列,在结构固定的环境里重复执行,不需要应变。一臺焊接手臂每天走同一条轨迹,分拣机器人在预先规划的路在線来回——对这类任务而言,弹性是多余的。这个前提在过去几十年运作得很好,但它的边界也很清楚:换了场景就得重新设定,出了例外就得人工介入。

但这个限制正在被松动,而且是产业必须认真面对的突破。下一代自主机器人的目标截然不同:接受一道自然语言指令,在开放场域中自主运作10个小时以上,途中能察觉例外、调整計劃、完成任务,不需要人在旁监看。要做到这件事,机器人必须能「推理」。这个能力能否真正落实,很可能就是机器人产业下一轮典范转移的关键技术。

如果机器人在实体世界也开始可以「推理」(深度思考)了呢?

想像机器人第一次进入陌生的空间:需要电源,但插头可能藏在电视机后面,要自行判断从哪个角度找得到;被交代「把厨房收一下」,必须把这个模糊指令拆解成十几个子动作,决定先收什么、后收什么;面对一臺没见过的微波炉,要推论哪颗键是加热、设定多久合理;桌面已满,拿著餐盘不知道往哪放,得判断能否先挪开某个物件;工厂的仪表读数被管线遮住,要推测是换个视角、还是移开管线才能看清楚;前往下一个位置的路径被外物堵住,要决定是等、是绕、还是主动清出空间。这些情境的共同特征是:答案不在事先设定的规则里,机器人必须把视觉线索、空间常识、任务目标實時整合,做出当下的判断。

然而,同样的推理机制搬到实体空间,就会明显失灵。根本原因在于數據结构不同。LLM的推理之所以可行,是因为语言有丰富的文字序列供训练,答案也可被清楚验证。但3D实体场景缺乏这种天然的监督信號——没人会持续为自己的空间、物件位置、姿态变化做标注,「开关大致在门边墙面」「开罐器通常放在厨房抽屉」这类空间常识,没有网页规模的训练數據可以依靠。

长时序规划是另一层难点:指令一旦复杂,机器人必须把目标拆解成数十个子动作并在执行途中不断应变,研究显示纯LLM在这类任务上的错误率会随步骤数超线性上升,没有外部验证机制,难以可靠完成任务。

针对具身推理,研究圈已在几个方向同步推进,核心问题都是让推理过程能与实体世界的真实状态挂钩——不只是语言上说得通,还要能被验证、能指导动作。方向从让机器人移動前先写出推理过程、到把推理步骤对应到空间几何预测、再到让机器人从实际尝试的结果中修正自己的推理,各有侧重,也各有代价。整体仍在研究阶段,尚未出现明确胜出的路径;但几个方向的进展都比几年前快,可见度也愈来愈高。

这套推理能力的实际部署,可能采取分层架构。目前机器人边缘运算平臺的运算能力已进入千TOPS等级,足以在本地端實時执行推理模型,完成大多数动作决策。遇到需要更深层推理的任务,例如复杂场景规划或多步骤的例外处理,若时间允许,可以呼叫云端较大的模型做更完整的推理,再把结果传回边缘端执行。

这种金字塔式的分工,让實時执行与推理深度可以依任务弹性切换,不必在两者之间硬性取舍。

在这个背景下,前面提过的世界模型(world model)与推理的关系也愈来愈值得关注。上一篇已介绍过世界模型在感知与表征上的角色;在推理层面,它的潜在贡献是让机器人在移動之前能先「模拟」:预测推开某个物件后场景会如何改变、抓取某个位置后会遭遇什么阻力。如果推理可以借助这种前瞻性的物理预测,验证就不只是事后比对,而是在移動前就能排除不合理的計劃。这个方向目前仍在早期,但已被纳入几个主要机器人基础模型的路线图。

延伸报导专家讲堂:World Model:分歧的研究世界

LLM推理能力的突破,带来的不只是「模型更聪明」——而是让AI能进入法律文件分析、医疗诊断辅助、軟件开发等原本需要高度专业判断的领域,改变工作流程,在部分商业场域引发典范转移。具身推理若能达到类似的可靠程度,让机器人在不确定的实体空间里真正能规划、应变、判断,潜在的变化幅度可能同样深远。工厂、物流、照护、服务,这些领域长期需要「能判断、能应变」的自主执行能力,却一直缺乏可靠的技术支撑。

自主机器人的产业天花板,很可能取决于推理能走多深、场域能延伸多远。

现任台灣大學信息工程学系教授,曾任富智捷(MobileDrive)技术长暨副总经理,推动ADAS及智能座舱系统产品进入全球车用市场。纽约哥伦比亚大学电机博士,专精于机器学习、电脑视觉、自驾车、机器人等领域。为讯连科技研发团队创始成员,慧景科技(thingnario)共同創始人,NVIDIA AI Lab計劃主持人;曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会,担任多家科技公司AI策略顾问。
智能应用 影音