大型语言模型在近年展现出3个令人惊讶的能力:
泛化(generalization),在从未见过的问题上给出合理答案;
多任务(multitasking),同一个模型写程序、翻译、分析财报、判读法律文件;
推理(reasoning),把复杂问题拆解成步骤,逐一推导出解答。
正是这三个能力,让大型语言模型在數字世界掀起典范转移。下一个问题,是这些能力能否走进实体世界—不只在屏幕上思考,而是在真实空间中感知、判断、移動。这正是「具身智能」(EmbodiedAI)试图回答的问题:让模型不只是推理引擎,而是成为真实环境中的移動者。
需求比想像中更迫切。
谈机器人,往往让人联想到科幻场景或工厂自动化。但推动这一波发展的力量,其实更接近人口结构的现实。臺湾65岁以上人口占比已超过17%,日本早已超过29%,德国超过22%;制造业、物流业、长照产业的缺工问题,在多数已开发国家不是短期现象,而是长达数十年的结构性挑战。
另一个驱动力是安全:高温、高压、有毒化学品、重复性导致的职业伤害—把人从这些场景中移出,本身就有足够的商业理由,不需要等到机器人的成本降到与人力相当。
这一波机器人讨论之所以与过去不同,有一个常被忽略的前提:硬件已经准备好了。傳感器(摄影机、LiDAR、触觉傳感器)的成本在过去十年大幅下降,马达与减速机的精度持续提升,机械结构的制造良率也趋于成熟。部分得益于电动车产业的规模效应—马达、减速机、傳感器的供应链随EV量产大幅成熟,机器人硬件直接受惠。机器人整体硬件成本在2023至2024年间年降幅约达4成,下降曲线清晰可见,这与早期工业电脑、早期智能手機的轨迹高度相似。硬件不再是关键瓶颈;问题移到了「大脑」、「眼睛」与「四肢」—机器人要如何真正看懂环境、做出判断、精准完成任务?
最直觉的答案是把云端LLM接进机器人。但物理世界的时间尺度与數字世界截然不同:人类在键盘上等待一秒的回应是可接受的,机器人在伸手抓取物件时若延迟半秒,轻则任务失败,重则碰撞损毁。
云端推论的網絡延迟,在这个场景中是结构性的障碍,不是优化问题。
自驾车产业已解决这个问题:感知与實時控制在车载边缘运算上执行,高端路径规划与地图更新则视需要呼叫云端。今天的车载SoC已有足够的算力支撑實時的视觉識別与控制决策;机器人的边缘硬件正在走同一条路。实体算力的门槛在过去几年已大幅降低,让「大脑在本地执行」从成本考量来看也愈来愈可行。
技术上,这一波机器人能力的突破,核心在于VLA(Vision-Language-Action)模型架构的确立。VLA把三条原本独立的信號—视觉感知、语言指令理解、动作输出—整合进同一个神经網絡,让大语言模型的推理能力得以迁移到机器人的动作决策上。
过去的机器人控制是一任务一模型,抓取、搬运、组装各有专属系统,换了场景或换了物件就得重新训练,缺乏弹性且成本高昂。VLA打破此一架构:操作者可以用自然语言描述任务,模型自主分解成动作序列并执行,即便是训练时未见过的物件或场景,也有一定的应对能力。开源模型中,openVLA在同一个模型架构下跨平臺操控多种机械手臂,展示通用操作策略的可行性;Physical Intelligence的π₀以超过1万小时的跨平臺遥控操作數據预训练,针对新任务微调只需1至20小时。「一个模型跨场景泛化」这个问题,在过去一年内开始有了系统性的肯定答案。
讨论机器人时,往往局限在机械手臂的操作能力上。但在真实工作场景中,「走到目标地点」与「对它做什么」是同等重要、缺一不可的能力。这个组合在学术界称为mobile manipulation——同时具备移动底盘与操作手臂的机器人平臺,才能提供更多弹性与能力。
想像一个仓储场景:机器人能自主移动到正确的货架,識別目标物件的位置,伸手抓取,再移动到指定放置点。每一个步骤都需要精确的空间理解与动作协调。固定式机械手臂只能解决「操作」这半题;移动平臺加上操作手臂,才是开启更多可能性。
要让机器人在非受控环境中自主移动,导航(navigation)是必须解决的基础能力,而导航的前提是建图(mapping)—机器人必须先建立对所在空间的三维理解,才能规划路径、避开障碍。
早期的机器人导航依赖预先设定的固定路线或QRcode地标,弹性极低。SLAM(Simultaneous Localization and Mapping,實時定位与地图建构)技术让机器人能在移动中同步建立环境地图并定位自身,是目前主流的导航基础。更近期的发展方向是语义地图:不只知道「那里有一个障碍物」,而是理解「那是一张椅子、那是工人、那是临时堆放的栈板」,进而做出更合理的路径判断。这个方向与VLA的语言理解能力高度相辅:机器人不只在几何空间中移动,而是在语义空间中理解环境。
商业部署的信號已出现。电动车厂的整车组装线与零组件仓储,是目前规模最大的机器人商业场域;欧美汽车厂与第三方物流业者也已在工厂与配送中心导入机器人,更有弹性、拟人化的执行零件搬运,商业场域的试验已陆续展开。多家国际投资银行的分析指向同一个方向:实体(Physical AI)所面对的,是整个制造业、物流业、服务业工作流程的重新配置,而非单一产品市场的扩张。
诚实评估目前的限制,是避免高估或低估这波趋势的必要功课。第一个问题是电池:目前机器人的续航约2至4小时,工厂班次通常8至12小时,补充电力需要停机,这在连续生产场景中是结构性缺口。电池能量密度的提升是化学问题,不是軟件问题,很难靠演算法突破。第二个问题是长尾场景的泛化:在受控环境下,机器人已能可靠完成标准任务,但工厂地板的一摊水、歪掉的零件箱、训练集未见过的新产品,仍常造成失误。工业场景的容错空间远低于实验室,这个缺口目前尚未被系统性地填补。第三个问题是灵巧操作(dexterous manipulation):人类手部的精度与柔顺性,在精密组装、电子制程等场景中,仍远超现有机械手的能力。
从GPT-1到ChatGPT(2022年底,版本为GPT-3.5),语言模型花了四年半。机器人领域的「GPT-1时刻」大约发生在2022至2023年前后,VLA概念开始被系统性验证;我们现在大约处于GPT-2.x时刻。这里比的是能力发展的轨迹,而非模型规模。机器人还多了一道语言模型不需要面对的约束:再强的模型,最终仍须压缩到本地端执行,受算力、功耗、延迟的硬性限制,这是VLA需要额外跨越的障碍,语言模型当年并不需要面对。
不过,GPT-2.x并不意味著要等。从结构固定的重复性作业,到桌面操作的弹性取放,到自主移动与场域导航,再到多工协作、人机共同执行任务,乃至需要一定推理能力的复杂流程辅助;不同成熟度的技术,对应不同层次的导入机会,不必等到全面成熟才能创造价值。这个阶段,对观望者而言似乎还早,但对决定在哪个节点进场的人而言,这可能是领先班车的最后一个上车点了!