智能机器人如何学动作技能？

徐宏民

2026-04-15

AI语音摘要

00:43

煎蛋翻面不到2秒，但每一步都是连续的傳感判断与力道决策；涂果酱、摆餐盘同样如此。这类「低端技能」（atomic skill）的难点不在于执行固定轨迹，而在于复杂环境正确执行。

前一篇讨论的VLA架构解决的是（高端）任务规划，本文要回答的是更深入的问题：机器人怎么把每一个（低端）基本动作做好？

传统工厂机器人的动作，是不同性质的事。抓取、插件、焊接、锁螺丝，关键字是「重复性」与「受控条件」：同一款零件在同一个位置，同样的夹爪、同样的轨迹、同样的速度，不需要处理复杂变动环境。这类动作可以用固定程序精确执行，但容错空间极低，环境稍有偏差就失效。

过去教导机器手臂的主流方式，叫「示教法」（teach-and-playback）：操作员透过示教器（teach pendant）将手臂逐点移至目标位置、记录各路径点的关节角度，再让机器人依序重放。环境固定的场景至今仍适用，但示教法本身没有傳感（甚至推理）能力——它只知道「下一个路径点在哪里」，换了零件或场景就要重新示教，遇到变动情境也无从判断。

从「执行固定轨迹」到「应对多变场景」，需要从根本上换一种动作学习逻辑。目前学界与业界收敛出2条主轴：强化学习（Reinforcement Learning；RL）与模仿学习（Imitation Learning；IL）。

强化学习（RL）的基本逻辑是「从尝试中学习」。机器人不看示范，自行在环境中试探；每次移動之后，根据结果的好坏（「奖励信号」）调整策略，慢慢摸索出完成任务的方法。理论上，只要定义好成功标准（比如「蛋翻面后完整不破」），机器人甚至可能摸索出人类没想到的解法。

但是，RL在实体机器人上有一个根本缺陷：它需要大量的试误次数才能收敛，而每一次试误在真实机器人上都消耗时间，且有损坏设备的风险。在模拟器里可以让机器人不眠不休地失败几百万次；搬到真实机器人上，同样的学习量可能需要几年。

这就是为什么 RL 在机器人领域目前主要的定位，是在模拟环境中预训练，而非从头在实体上学习。

模仿学习（IL）走的是另一条路：让机器人观察人类示范，从中学习，而非从零试误。在理解模仿学习之前，有一个基础概念值得先厘清：「策略」（policy）。策略是机器人的决策核心：给定当下的傳感状态（摄影机画面、关节角度、触觉数值），输出下一步应该执行的动作。训练机器人动作的本质，就是在训练一个好的策略。

最直觉的模仿学习方式叫行为复制（behavioral cloning）：把人类示范的「状态与对应动作」当作训练數據，用监督式学习训练策略。简单，但有一个根本弱点：示范都是「做对了」的过程，机器人从未学过「偏掉了该怎么办」。执行时只要出现细微偏差，后续每一步的判断都可能进一步出错，误差层层累积。任务愈长、步骤越多，这个问题愈致命。

目前解决这个问题最具代表性的方向是「扩散策略」（Diffusion Policy）。它的技术来自于这几年大家熟悉的（影像）生成式 AI，背后用的就是扩散模型：从随机杂讯出发，经过多轮降噪处理，逐渐收敛出高品质影像。研究人员把同样的架构搬进机器人控制，把输出从像素值换成连续的动作序列。

传统行为复制倾向输出「平均解」，遇到同一任务有多种合理做法时往往哪边都不对。扩散策略换了角度：不输出单一动作，而是学习「给定当下状态，合理动作的机率分布」，再从这个分布中采样。降噪过程同时生成接下来若干步的完整动作序列，让机器人不必每一步重新决策，动作因此更稳定、流畅。在相对少量的示范數據条件下，Diffusion Policy就能让机器手臂完成需要精细力道控制的操作任务，是目前數據效率与效果兼顾最好的方法之一。

更新的策略学习方向是「流匹配」（Flow Matching）。概念更直观：与其从杂讯出发反复降噪，不如直接学习从杂讯到目标动作的最短路径，推论步骤因此大幅减少，速度更快、训练也更稳定。目前已有机器人基础模型采用此架构，在学界与业界逐渐受到重视。

2条路线各有天花板。RL的试误成本在实体机器人上难以接受，目前主要在模拟环境中预训练，而非直接在实体上学习。IL的效果上限受制于示范數據的品质，示范者没做过的，机器人就不会。实务上两者通常搭配使用：模仿学习建立初始策略，强化学习在模拟环境中补足长尾情境。

但不论哪条路，核心限制都指向同一件事：训练數據。这也是太平洋两岸的领先机器人研究团队们已有的共识。示范數據从哪来、如何在可接受的成本下大规模取得，已经成为这场竞赛真正的核心问题——这也是下一篇要探讨的主题。

智能机器人如何学动作技能？

徐宏民台灣大學信息工程学系教授

作者其他文章

推荐活动

邦博士快讯

让AI代理为企业全面赋能 - 规划财务转型之路

智能机器人如何学动作技能？

徐宏民 台灣大學信息工程学系教授

作者其他文章

推荐活动

邦博士快讯

让AI代理为企业全面赋能 - 规划财务转型之路

徐宏民台灣大學信息工程学系教授