机器人的ChatGPT时刻？

徐宏民

2026-04-09

AI语音摘要

00:50

大型语言模型在近年展现出3个令人惊讶的能力：

泛化（generalization），在从未见过的问题上给出合理答案；

多任务（multitasking），同一个模型写程序、翻译、分析财报、判读法律文件；

推理（reasoning），把复杂问题拆解成步骤，逐一推导出解答。

正是这三个能力，让大型语言模型在數字世界掀起典范转移。下一个问题，是这些能力能否走进实体世界—不只在屏幕上思考，而是在真实空间中感知、判断、移動。这正是「具身智能」（EmbodiedAI）试图回答的问题：让模型不只是推理引擎，而是成为真实环境中的移動者。

需求比想像中更迫切。

谈机器人，往往让人联想到科幻场景或工厂自动化。但推动这一波发展的力量，其实更接近人口结构的现实。臺湾65岁以上人口占比已超过17%，日本早已超过29%，德国超过22%；制造业、物流业、长照产业的缺工问题，在多数已开发国家不是短期现象，而是长达数十年的结构性挑战。

另一个驱动力是安全：高温、高压、有毒化学品、重复性导致的职业伤害—把人从这些场景中移出，本身就有足够的商业理由，不需要等到机器人的成本降到与人力相当。

这一波机器人讨论之所以与过去不同，有一个常被忽略的前提：硬件已经准备好了。傳感器（摄影机、LiDAR、触觉傳感器）的成本在过去十年大幅下降，马达与减速机的精度持续提升，机械结构的制造良率也趋于成熟。部分得益于电动车产业的规模效应—马达、减速机、傳感器的供应链随EV量产大幅成熟，机器人硬件直接受惠。机器人整体硬件成本在2023至2024年间年降幅约达4成，下降曲线清晰可见，这与早期工业电脑、早期智能手機的轨迹高度相似。硬件不再是关键瓶颈；问题移到了「大脑」、「眼睛」与「四肢」—机器人要如何真正看懂环境、做出判断、精准完成任务？

最直觉的答案是把云端LLM接进机器人。但物理世界的时间尺度与數字世界截然不同：人类在键盘上等待一秒的回应是可接受的，机器人在伸手抓取物件时若延迟半秒，轻则任务失败，重则碰撞损毁。

云端推论的網絡延迟，在这个场景中是结构性的障碍，不是优化问题。

自驾车产业已解决这个问题：感知与實時控制在车载边缘运算上执行，高端路径规划与地图更新则视需要呼叫云端。今天的车载SoC已有足够的算力支撑實時的视觉識別与控制决策；机器人的边缘硬件正在走同一条路。实体算力的门槛在过去几年已大幅降低，让「大脑在本地执行」从成本考量来看也愈来愈可行。

技术上，这一波机器人能力的突破，核心在于VLA（Vision-Language-Action）模型架构的确立。VLA把三条原本独立的信號—视觉感知、语言指令理解、动作输出—整合进同一个神经網絡，让大语言模型的推理能力得以迁移到机器人的动作决策上。

过去的机器人控制是一任务一模型，抓取、搬运、组装各有专属系统，换了场景或换了物件就得重新训练，缺乏弹性且成本高昂。VLA打破此一架构：操作者可以用自然语言描述任务，模型自主分解成动作序列并执行，即便是训练时未见过的物件或场景，也有一定的应对能力。开源模型中，openVLA在同一个模型架构下跨平臺操控多种机械手臂，展示通用操作策略的可行性；Physical Intelligence的π₀以超过1万小时的跨平臺遥控操作數據预训练，针对新任务微调只需1至20小时。「一个模型跨场景泛化」这个问题，在过去一年内开始有了系统性的肯定答案。

讨论机器人时，往往局限在机械手臂的操作能力上。但在真实工作场景中，「走到目标地点」与「对它做什么」是同等重要、缺一不可的能力。这个组合在学术界称为mobile manipulation——同时具备移动底盘与操作手臂的机器人平臺，才能提供更多弹性与能力。

想像一个仓储场景：机器人能自主移动到正确的货架，識別目标物件的位置，伸手抓取，再移动到指定放置点。每一个步骤都需要精确的空间理解与动作协调。固定式机械手臂只能解决「操作」这半题；移动平臺加上操作手臂，才是开启更多可能性。

要让机器人在非受控环境中自主移动，导航（navigation）是必须解决的基础能力，而导航的前提是建图（mapping）—机器人必须先建立对所在空间的三维理解，才能规划路径、避开障碍。

早期的机器人导航依赖预先设定的固定路线或QRcode地标，弹性极低。SLAM（Simultaneous Localization and Mapping，實時定位与地图建构）技术让机器人能在移动中同步建立环境地图并定位自身，是目前主流的导航基础。更近期的发展方向是语义地图：不只知道「那里有一个障碍物」，而是理解「那是一张椅子、那是工人、那是临时堆放的栈板」，进而做出更合理的路径判断。这个方向与VLA的语言理解能力高度相辅：机器人不只在几何空间中移动，而是在语义空间中理解环境。

商业部署的信號已出现。电动车厂的整车组装线与零组件仓储，是目前规模最大的机器人商业场域；欧美汽车厂与第三方物流业者也已在工厂与配送中心导入机器人，更有弹性、拟人化的执行零件搬运，商业场域的试验已陆续展开。多家国际投资银行的分析指向同一个方向：实体（Physical AI）所面对的，是整个制造业、物流业、服务业工作流程的重新配置，而非单一产品市场的扩张。

诚实评估目前的限制，是避免高估或低估这波趋势的必要功课。第一个问题是电池：目前机器人的续航约2至4小时，工厂班次通常8至12小时，补充电力需要停机，这在连续生产场景中是结构性缺口。电池能量密度的提升是化学问题，不是軟件问题，很难靠演算法突破。第二个问题是长尾场景的泛化：在受控环境下，机器人已能可靠完成标准任务，但工厂地板的一摊水、歪掉的零件箱、训练集未见过的新产品，仍常造成失误。工业场景的容错空间远低于实验室，这个缺口目前尚未被系统性地填补。第三个问题是灵巧操作（dexterous manipulation）：人类手部的精度与柔顺性，在精密组装、电子制程等场景中，仍远超现有机械手的能力。

从GPT-1到ChatGPT（2022年底，版本为GPT-3.5），语言模型花了四年半。机器人领域的「GPT-1时刻」大约发生在2022至2023年前后，VLA概念开始被系统性验证；我们现在大约处于GPT-2.x时刻。这里比的是能力发展的轨迹，而非模型规模。机器人还多了一道语言模型不需要面对的约束：再强的模型，最终仍须压缩到本地端执行，受算力、功耗、延迟的硬性限制，这是VLA需要额外跨越的障碍，语言模型当年并不需要面对。

不过，GPT-2.x并不意味著要等。从结构固定的重复性作业，到桌面操作的弹性取放，到自主移动与场域导航，再到多工协作、人机共同执行任务，乃至需要一定推理能力的复杂流程辅助；不同成熟度的技术，对应不同层次的导入机会，不必等到全面成熟才能创造价值。这个阶段，对观望者而言似乎还早，但对决定在哪个节点进场的人而言，这可能是领先班车的最后一个上车点了！

机器人的ChatGPT时刻？

徐宏民台灣大學信息工程学系教授

作者其他文章

推荐活动

邦博士快讯

让AI代理为企业全面赋能 - 规划财务转型之路

机器人的ChatGPT时刻？

徐宏民 台灣大學信息工程学系教授

作者其他文章

推荐活动

邦博士快讯

让AI代理为企业全面赋能 - 规划财务转型之路

徐宏民台灣大學信息工程学系教授