VLA（Vision-Language-Action）机器人的新智能引擎

徐宏民

2026-04-14

AI语音摘要

00:51

大型语言模型（LLM）问答能力超强，让人自然产生一个直觉：把LLM接上机器人，使用语言下指令，机器人是不是就有智能移動力？

直觉没错，但中间有几个结构性的缺口，填补这些缺口的解法，就是目前崛起的机器人AI新引擎：VLA（Vision-Language-Action）模型。

LLM面对机器人控制有2道缺口。第一，输出格式不对：语言模型产生的是文字，不是机器手臂可以执行的动作指令。Google 2022年的SayCan研究把这个问题称为grounding gap：一个模型可以生成「拿起桌上的水瓶，放到椅子旁边」这样的规划，但这串文字如何转换成3D空间的关节运动矢量？语言叙事与实际执行之间，需要一个明确的桥接机制。

第二，LLM的动作理解能力本身有结构性的弱点。史丹佛大学（Stanford）团队在NeurIPS 2024的研究中把机器人决策能力拆成4个分项分别评测，发现LLM在「连续动作规划」这项表现最弱——而这正好是机器人控制最不能缺少的能力。这不是prompt写得不好的问题，而是语言模型在训练目标上本来就不是为了预测实体世界的状态变化而设计的。

VLA的架构设计，就是为了跨越这两道缺口。

Google DeepMind 2023年发表的RT-2，是目前被引用最多的VLA系统之一。它的思路是：把视觉语言大模型（VLM）作为感知与理解的主干，再接上一个action head：专门负责把模型的决策输出转换成连续的动作矢量。这个架构让系统能够同时处理视觉画面与语言指令，输出的不是文字，而是实际的关节角度与末端执行器的移动指令。更重要的是，VLM在網絡规模的视觉与语言數據上预训练所获得的泛化能力（常识），在一定程度上能迁移到机器人操作的新场景上，这是过去单一任务单一模型的架构做不到的（多工能力）。

开源生态也已跟上。openVLA展示同一个模型框架可以控制多种不同机械手臂；Physical Intelligence的π₀则用超过1万小时的跨平臺遥控示范數據预训练，可以让新任务的微调降到1至20小时。大语言模型「泛化」的概念开始有了工程上的实证。

然而，把一个大型VLM直接接上action head、整合成单一模型的做法，有一个结构性的矛盾：VLM跑得慢（加上推理工作速度会更慢），精细控制需要跑得快。两者要处理的问题性质根本不同、运作速度也不在同一个层次。

知道怎么做，和有能力把它做好，是两件性质不同的事。大脑可以清楚规划「拿起零件、对准位置、轻放入槽」，但每个步骤的实际执行，依靠的是另一套机制——精准的肌肉控制与實時的力道感知。机器人系统面对同样的分工问题，这推动学界与业界共同往分层架构的方向走：把「知道怎么做」与「有技能去完成」拆成两个系统。

System 2（高端）是VLM，负责语意层次的理解与任务规划；System 1（低端）是轻量化的动作生成模型，负责把规划转换成连续、精确的关节动作，两者运作频率完全不同。NVIDIA于2024年发布的GR00T N1是目前最具代表性的公开实作——2个模塊在模拟平臺上联合训练，让System 1能以120Hz的频率控制机器人，也就是每秒更新120次动作，这是确保精细操作稳定的基本要求。

但即便架构方向渐清，3个瓶颈依然尚待突破。

數據是最根本的限制。语言模型的训练數據来自網絡，规模以萬億计；机器人的示范數據需要人工遥控示范逐笔收集，目前最大规模的數據集也只有几万小时等级，差距悬殊。模拟器能协助，但sim-to-real gap持续存在——模拟器在接触力、材质摩擦上的真实度仍有落差，在模拟环境训练出的策略，移到真实场景常出现非预期失误。此外，真实场域中各种难以预料的边缘情境也是挑战之一。

灵巧操作（dexterous manipulation）不只是模型问题。毫米级精度的组装、软性材料的抓取，需要實時触觉回馈，而触觉傳感器的成本与可靠度仍是工程上未解的题目。这个缺口靠扩大數據规模无法完全解决，傳感器与机械结构的进化同样必要。

长时序任务（long-horizon planning）则是VLA目前最难回避的限制。各样任务往往需要多个步骤依序完成，每个步骤的执行结果都影响下一步判断，误差一旦累积，之后很难修正。我们近期的研究也发现，现有模型在规划时往往专注在指令执行，却未评估目标物件在当下是否可被操作（比如微波炉脏了）——环境一旦出现未预期的状态变化，整个任务就在执行中途失效。分层架构让System 2承担规划责任，方向正确；但VLM的长时序规划能力能否支撑真实情境任务，目前还没找到系统性的方案。

VLA确立语言、视觉、动作整合的架构方向，分层设计进一步回答「如何同时跑得快又想得深」这个问题。灵巧操作、长时序规划、训练數據这三道缺口尚待突破，但过去2年的技术演进速度已经说明，这些问题被解决只是时间问题。真正值得追问的下一个问题是：VLA让机器人有高端思考能力之后，机器人怎么把每一个基本动作学好？这才是整个系统能否真正部署的关键基础。

VLA（Vision-Language-Action）机器人的新智能引擎

徐宏民台灣大學信息工程学系教授

作者其他文章

推荐活动

邦博士快讯

让AI代理为企业全面赋能 - 规划财务转型之路

VLA（Vision-Language-Action）机器人的新智能引擎

徐宏民 台灣大學信息工程学系教授

作者其他文章

推荐活动

邦博士快讯

让AI代理为企业全面赋能 - 规划财务转型之路

徐宏民台灣大學信息工程学系教授