一千臺自主机器人须跨越哪道鸿沟?

徐宏民
2026-05-12

过去十五年,几项产业典范先后从0到1跨越商用门槛。手机从2007年iPhone重新定义形态,5年后(2012)出货进入交叉点;ADAS从2014年深度学习推动视觉識別成熟、Tesla Autopilot量产起算,到2022~2024年中国市场进入L2+标配状态,跨越约十年;大型语言模型从2020年GPT-3到2023年ChatGPT,逐渐改变生产力的样貌;自驾出租車则经过七年突破一千辆的关键门槛,开始逐步规模化—领先业者已扩张到约3,000辆,每周行驶里程仍在倍数成长。

每段路径的起点不同(形态创新、傳感突破、能力涌现、车队密度),但跨越鸿沟的共同模式相当清楚:从来不是单一公司独立完成,而是技术突破、形态定义、平臺开放、规模制造、法规介入、终端代理,各个关卡由不同类型的业者接力跑完。

跨越之后的影响也大致分3种型态:产品取代(手机重新定义使用情境,feature phone供应商消失,换代最快最彻底)、产业重组(ADAS成为汽车标配,整个供应链、竞争力与价值重新分配,产业形态本身不消失)、生产力样貌重塑(大型语言模型不取代人,但改写人做事的方式与组织流程,速度最慢但影响最深)。

机器人似乎也站在关键的时间点。2024~2025这两年,多家公司把通用机器人系统推上现场,VLA架构从学术论文走进产品,工厂试点开始小规模部署。如果把问题更具体化:今天还没有一家公司能让1,000臺机器人在开放场域中达到完全自主的长时间运作。目前最具规模的部署,要不依赖预先规划的场景(仓储AMR),要不依赖可观比例的線上操作员介入(配送机器人)。「能做出一臺」与「能让一千臺真正自主运作」,是两道性质不同的门槛。实验室里示范1臺机器人泡好1杯咖啡很惊艳;要把同样的能力放大到医院物流、餐饮后场、产线组装这类场域、千臺规模、每天10小时连续运转,又是完全不同层级的问题。

以仓储AMR为例,某大型电商物流中心同时运行超过4,000臺自主移动机器人,条件是预先铺设的格状地板、固定路径、不允许外物进入。这4,000臺跑的是预先规划好的路径,不是在开放场域中實時感知、规划、决策。把仓储为机器人改造,是先把场景的不确定性拿掉,让机器人在规划过的环境内运转——这在工程上有效,但离真正的自主能力还有差距。

接下来几年,机器人能不能真正拥有「自主性」、像前述三项典范那样跨越chasm(鸿沟),技术上的关键在两块长期被低估的能力:「长时序规划」与「泛化」。

第一块是长时序规划(long-horizonplanning)。煎蛋翻面、涂果酱、把箱子搬上输送带,任何「看起来很简单」的任务拆开都是十几步连续决策。每一步当下做对不代表整体能完成;累积误差(compoundingerror)、子目标冲突、傳感杂讯在某一步触发误判,整段规划可能就此失效。举例来说,即使每一步有9成准确率,连续10步整体成功率仍会掉到3成左右。机器人面对的是物理环境,每一步的误差不只是文字错误,可能是手臂卡住、物件掉落、推倒旁边的杯子。

目前VLA模型在短任务上已展现基本能力,但30秒以上的连续任务、跨子目标的重新规划、失败后的自我恢复,仍是研究热区。没有这层能力,机器人无法独立完成厨房一道菜、清洁一间病房、组装一块主机板。

第二块是泛化能力。换个光源、换个物件、换个房间布局,机器人的成功率能否维持?这个问题的根源不在模型本身,而在训练數據的覆盖度。VLA模型的能力直接受限于數據的场域多样性、视角多样性、物件多样性、失败模式多样性,任何一个维度覆盖不足,部署到现场就会持续露出缺陷。模拟器可以补一部分,但接触密集场景与傳感杂讯的真实分布只能部分逼近,这在前一篇Sim-to-Real已详述。真正的解方是让部署现场本身成为持续的训练數據来源:千臺机器人在工厂、餐饮、物流连续运作,每一次失败、每一个未见场景回流中央模型,经筛选、标注、再训练,再以OTA更新回边缘装置;规模本身成为模型进化的燃料。

这个自我强化的回路就是业界所称的fleet learning。自驾车产业从2016年起花了将近十年才把它建起来,工程上真正的重点不在模型,而在數據管道、筛选与标注、版本管理、现场运维与维修回应網絡,每一块都是独立工程系统,缺一块整个回路就跑不起来。

其他几项在前几篇已展开:灵巧操作的触觉与力回馈、Sim-to-Real落差、VLA安全设计(执行前弃权、执行中监控、语义层的物件风险)。这些在工厂试点阶段都在被解,但要走到1,000臺、10,000臺规模时,都会与长时序规划、泛化、fleetlearning纠缠在一起,任何一项补不齐,整个回路就跑不满。

技术之外,还有2道非技术障碍会挡住采购端决策。一是认证体系与持续学习的冲突:现行的工业与自主机器人认证(ISO10218、UL3300、2027年生效的欧盟机械法规)建立在「行为可预测、可冻结、可审计」的前提,fleet learning的核心却是「模型在部署后持续更新」,OTA之后是否要重新认证目前没有明确答案。

二是保险与责任归属:当机器人停掉产线或撞到推床,责任主体是制造商、部署方、模型供应商、还是现场整合商?自驾车产业讨论了十几年才大致收敛于「L4/L5由制造商承担」,服务型机器人界面更分散,责任分层只会更复杂。没有保险背书,采购方就无法承担对应的风险。

场景选择也是一道初期障碍。哪一种垂直情境适合一个刚起步的机器人系统开始真正自主运作?这个问题没有最佳解,但前述无人出租車业者的轨迹给了清楚的策略:先把问题的开放性压到够小,划出明确围栏,在受控边界内累积运转时数、收集真实场域數據、把例外情境逐一解掉,回头看清楚这个任务的核心运作逻辑,然后才把边界往外推。该业者从特定城市的受限路段起步,逐年向外扩大运行范围,每一次扩张都是在前一个边界内把长尾收敛得足以承接下一轮。

机器人对应的问题是:哪些垂直场域同时有足够的需求密度、任务重复性与容错空间,能让fleet learning回路真的跑起来?答案多半在工厂某条产线、特定仓储格局、特定餐饮后场、医院药局,而不是「家庭服务机器人」这种看似最大、实际开放性也最大的终局场景。

业界对机器人规模部署的时间表,多半指向2028~2030年才会出现以万臺为单位的案例。能否成立,取决于接力赛每一棒能否在这几年同步接好。技术上要把长时序规划与fleet learning推到产业可用的水位;商业上要把形态定义、开放平臺、规模制造、终端代理这几棒补齐;制度上要拿出认证体系与责任归属的答案。3项都同步到位,这个时间表才会兑现。对臺湾供应链来说,真正的押注点不是哪个整机厂商会赢,而是哪一棒会在自己擅长的位置接好。

现任台灣大學信息工程学系教授,曾任富智捷(MobileDrive)技术长暨副总经理,推动ADAS及智能座舱系统产品进入全球车用市场。纽约哥伦比亚大学电机博士,专精于机器学习、电脑视觉、自驾车、机器人等领域。为讯连科技研发团队创始成员,慧景科技(thingnario)共同創始人,NVIDIA AI Lab計劃主持人;曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会,担任多家科技公司AI策略顾问。
智能应用 影音