Token帐单之后:AI运算架构的5层重组
2024年下半,我有机会和一家硅谷前瞻大模型公司的高层交流。我问了一个问题:为了减轻服務器端的推论负载,有没有可能把部分工作移到终端装置,甚至开通新的应用情境?对方的回答很直接:根据他们的研究,这完全不可能。几个月后,2025年农历年前后,一场模型效率的突破事件让业界重新检视这个可能性。「完全不可能」,在不到一年内被现实修正。目前的资本流向,几乎清一色集中在最顶层。据部分研究机构估计,2025年美国數據中心建设规模(含规划中与施工中)已逼近80 GW;多家财经媒体的报导指出,主要科技业者的资本支出预计在2026年合计达到约6,600亿美元,其中逾8成直接流向AI數據中心。业界观察者以「没有放缓迹象」形容这波投资热度,并点出其结构性而非周期性的特征。热点在哪里,目前的答案很清楚。但另一组力量也在累积,而且有个不直觉的地方值得点出。2023年初,主流前瞻模型的API定价约为每百万token 30美元;如今已全面跌至0.1至0.25美元,降幅达90至99%,且仍在下修(本专栏〈AI越强,Token却越便宜〉)。按照直觉,token这么便宜,AI帐单应该缩水。现实却相反:推论模型、agent呼叫链等需求乘数,让总用量的成长速度远超单价下滑的速度,帐单不减反增(本专栏〈推论经济学〉)。「在哪里推论、用什么规模推论」,已从架构选项变成经营决策。若把AI推论的基础设施从当前的资本重心到未来的部署前瞻排列,我们推估大致可分为5层。最顶层也是目前投资最密集的,是超大规模AI工厂——以GW为单位,服务全球通用推论工作负载。这一层的竞争逻辑是纯粹的规模经济,几个大型云端厂商之间的较量,进入门槛极高,只有少数企业能直接介入的市场。往下一层是受监管或主权级AI數據中心。欧盟的AI法规、中东的數字主权政策、东南亚各国对數據本地化的立法,都在把特定产业或政府机构推向「必须在受控环境内完成推论」的处境。需求最明确的是国家安全相关机构——推论工作不只不能出境,往往还需要在实体隔离的环境中完成,对硬件安全认证的要求远高于一般企业。金融和医疗等私部门虽然约束程度较低,但面对的本质问题相同。这一层的采购决策往往由法遵、风控或安全主管部门驱动,销售周期和评估标准与其他层截然不同。企业AI數據中心目前是成长最快的一层。金融业、医疗机构、制造业领导厂商,在评估AI推论的部署位置时,部分选择自建而非公有云,驱动力不只是长期成本,更多是數據不愿外传的现实考量。这一层需要一定规模的IT组织支撑。对有自建能力的大型企业而言,推论需求愈大,自建的TCO优势就愈明显——每个token的运算成本、能源效率与系统使用率,都成为设计的核心参数,而非事后才考量的营运细节。但没有足够IT资源的中小企业,直接跨入的风险不低。中小型本地服務器对应有一定技术能力、但不想完全依赖公有云的中小企业或部门级部署。有一个长期被低估的现实:许多企业过去透过NAS等本地储存,累积大量业务數據——检验纪录、作业日志、客户往来文件——因为法遵、成本或帶寬的限制,从未上云,也从未被真正利用。本地推论服務器的出现,让这批沉睡數據第一次有机会被语言模型处理,不需要把數據传出去,也不需要支付庞大的云端费用。这一层真正的门槛不是资本支出,而是IT人力的可得性。第五层是终端装置。从手机上的智能语音助理、工厂边缘的视觉检测,到需要實時感知与动作决策的自主机器人,这一层的关键是延迟与离线可用性,而非运算规模。机器人在实体空间执移動作,几乎没有等待云端回应的余裕,断线就意味著停摆;这让终端推论从「可选项」变成系统设计的前提。需要大型模型推论或长篇上下文的任务,目前仍难以在这一层完成。但这条限制的边界正在移动。我们曾以封包(packet)的演进为例分析过(本专栏〈鉴往知来:packet vs. token〉):互聯網早期的运算重心在服務器端,当封包成功进入移動設備,才催生智能手機与长达10年的移動生态系爆发。token往终端装置移动,似乎正在走出类似的路径——使用需求的拉力、模型轻量化的持续推进,以及本地端推论硬件的能力提升,3个条件正在相继具备。近中期更可能的形态是混合并存,而非全面取代;但这一层的成长方向相当确定。这个层结构能够同时成立,背后有几个技术条件在近两年相继成熟:模型轻量化让前瞻模型得以在更少的硬件上完成推论;开放权重模型的能力持续追近闭源模型,且可以自行部署、不依赖特定厂商界面;法规与地缘政治的压力,则让受监管數據中心这一层的需求有了更稳定的支撑。三者缺一,分层格局就难以成立。这个趋势不代表顶层的投资退烧——各方数据显示那一层的建设力道仍在持续。各层同步展开,需求规模扩张,而非资源从顶层向下转移。竞争重心过去集中在顶层的大规模服務器与散热解决方案;现在,每一层都有不同的系统规格需求——低功耗推论芯片、针对推论工作负载优化的中密度服務器、安全法遵的系统整合,直到终端装置的边缘推论模塊。能否针对不同层次的客户需求给出有差异的回应,或许正是这波扩张中新机会的所在。
具身推理:机器人也开始深度思考了
过去一年多,大型语言模型(LLM)的「推理」已成为主流模型的标准配置。从2024年下半开始,长思考链与强化学习训练逐渐在各主流模型中普及,在程序设计、数学、法律、医疗等信息密集的领域确实展现效果。这套能力的基础,在于语言世界本身提供大量训练素材,而且推理的对错可以被直接验证。传统工业机器人从来不需要推理。它们的设计前提清楚:事先设定动作序列,在结构固定的环境里重复执行,不需要应变。一臺焊接手臂每天走同一条轨迹,分拣机器人在预先规划的路在線来回——对这类任务而言,弹性是多余的。这个前提在过去几十年运作得很好,但它的边界也很清楚:换了场景就得重新设定,出了例外就得人工介入。但这个限制正在被松动,而且是产业必须认真面对的突破。下一代自主机器人的目标截然不同:接受一道自然语言指令,在开放场域中自主运作10个小时以上,途中能察觉例外、调整計劃、完成任务,不需要人在旁监看。要做到这件事,机器人必须能「推理」。这个能力能否真正落实,很可能就是机器人产业下一轮典范转移的关键技术。如果机器人在实体世界也开始可以「推理」(深度思考)了呢?想像机器人第一次进入陌生的空间:需要电源,但插头可能藏在电视机后面,要自行判断从哪个角度找得到;被交代「把厨房收一下」,必须把这个模糊指令拆解成十几个子动作,决定先收什么、后收什么;面对一臺没见过的微波炉,要推论哪颗键是加热、设定多久合理;桌面已满,拿著餐盘不知道往哪放,得判断能否先挪开某个物件;工厂的仪表读数被管线遮住,要推测是换个视角、还是移开管线才能看清楚;前往下一个位置的路径被外物堵住,要决定是等、是绕、还是主动清出空间。这些情境的共同特征是:答案不在事先设定的规则里,机器人必须把视觉线索、空间常识、任务目标實時整合,做出当下的判断。然而,同样的推理机制搬到实体空间,就会明显失灵。根本原因在于數據结构不同。LLM的推理之所以可行,是因为语言有丰富的文字序列供训练,答案也可被清楚验证。但3D实体场景缺乏这种天然的监督信號——没人会持续为自己的空间、物件位置、姿态变化做标注,「开关大致在门边墙面」「开罐器通常放在厨房抽屉」这类空间常识,没有网页规模的训练數據可以依靠。长时序规划是另一层难点:指令一旦复杂,机器人必须把目标拆解成数十个子动作并在执行途中不断应变,研究显示纯LLM在这类任务上的错误率会随步骤数超线性上升,没有外部验证机制,难以可靠完成任务。针对具身推理,研究圈已在几个方向同步推进,核心问题都是让推理过程能与实体世界的真实状态挂钩——不只是语言上说得通,还要能被验证、能指导动作。方向从让机器人移動前先写出推理过程、到把推理步骤对应到空间几何预测、再到让机器人从实际尝试的结果中修正自己的推理,各有侧重,也各有代价。整体仍在研究阶段,尚未出现明确胜出的路径;但几个方向的进展都比几年前快,可见度也愈来愈高。这套推理能力的实际部署,可能采取分层架构。目前机器人边缘运算平臺的运算能力已进入千TOPS等级,足以在本地端實時执行推理模型,完成大多数动作决策。遇到需要更深层推理的任务,例如复杂场景规划或多步骤的例外处理,若时间允许,可以呼叫云端较大的模型做更完整的推理,再把结果传回边缘端执行。这种金字塔式的分工,让實時执行与推理深度可以依任务弹性切换,不必在两者之间硬性取舍。在这个背景下,前面提过的世界模型(world model)与推理的关系也愈来愈值得关注。上一篇已介绍过世界模型在感知与表征上的角色;在推理层面,它的潜在贡献是让机器人在移動之前能先「模拟」:预测推开某个物件后场景会如何改变、抓取某个位置后会遭遇什么阻力。如果推理可以借助这种前瞻性的物理预测,验证就不只是事后比对,而是在移動前就能排除不合理的計劃。这个方向目前仍在早期,但已被纳入几个主要机器人基础模型的路线图。延伸报导专家讲堂:World Model:分歧的研究世界LLM推理能力的突破,带来的不只是「模型更聪明」——而是让AI能进入法律文件分析、医疗诊断辅助、軟件开发等原本需要高度专业判断的领域,改变工作流程,在部分商业场域引发典范转移。具身推理若能达到类似的可靠程度,让机器人在不确定的实体空间里真正能规划、应变、判断,潜在的变化幅度可能同样深远。工厂、物流、照护、服务,这些领域长期需要「能判断、能应变」的自主执行能力,却一直缺乏可靠的技术支撑。自主机器人的产业天花板,很可能取决于推理能走多深、场域能延伸多远。
经典与量子的嫁接
人工智能的浪潮正在袭向社会的每一角落,重新塑造生活与工作的方式。先是从AI服務器,接著就是现在快速兴起的代理式AI(agentic AI),以及开始要进入部署阶段的实体AI。    这些都是以高效能计算(HPC)为核心的进展及延伸。目前HPC的主要象微就是AI服務器,其中核心元件包括过去PC的核心CPU、专用于人工智能张量(tensor)计算的GPU,以及高帶寬存儲器(HBM)。HPC的进展除了在芯片、先进封装以及系统组装的技术的持续推进外,另外最可能的进展就是将再几年可能就要商业量产的通用容误量子计算机(general fault-tolerant quantum computers)整合在HPC的体系之中,这就是混合量子经典计算(Hybrid Quantum-Classical Computing;HQCC)。   量子计算机依赖的是量子世界的叠加(superposition)和纠纒(entanglement)现象,而AI服務器的原理尽在经典(classical)之中。理论上量子理论是较一般的理论,说量子理论涵盖经典理论一点也不为过,但是实务上为了处理两种物理极限的现象,计算机存在的物理架构迥然相异。 虽然NVIDIA在軟件层架构层面已经用CUDA-Q为軟件架构为之铺路。CUDA-Q将量子处理器(Quantum Process Unit;QPU)当成某一种加速器(accelerator)来处理,并且兼容各种类型的量子位元计算机,但是AI服務器和量子计算机在硬件层面存在极具挑战性的桥接问题。    主要的问题大概落在两种系统中间关于延迟(latency)、信號类型和低温限制(cryogenic constraints)这些范畴中二者之差异所衍生出的不同结构。   延迟是指AI服務器从起始信號至完成效果的时间。AI的核心芯片CPU及GPU的延迟虽是奈秒等级,但是整个系统的延迟是微秒(us)甚至是厘秒(ms)等级。    AI服務器要能与量子计算机协作,必须要与量子计算机的基本时间尺度相干时间(coherence)比较。相干时间是指2个量子位元之间的量子纠纒能维持的时间;量子计算基本上是靠量子位元之间的相互纠缠来完成平行计算的。加上如果AI服務器的延迟时间比量子计算机相干时间长,则经典和量子计算无法形成有效的封闭循环、反复运算,现在有些已经展示其效能的演算法如变分量子本徴值求解器(Variational Quantum Eigensolver;VQE)、量子近似优化演算法(Quantum Approximation Optimization Algorithm;QAOA)等就无法有效使用。   值得注意的是这个问题并非所有类型的量子位元都有,这个问题之所以被提出来是因为目前商业发展最迅速的超导量子位元有这个问题。   也许是恰巧、也许不是,NVIDIA选择直接投资的PsiQuantum(光子量子位元;photonic qubits)、Quantinuum(离子陷阱;trapped ions)以及QuEra(中性原子;neutral atoms)量子位元的相干时间都远高于AI服務器的延迟时间。也就是说,采用适合的量子位元类型可以避免经典与量子计算桥接时的延迟问题。 AI服務器与量子电脑信號的性质与行为存在相当大的差异。针对这些信號差异,二者的硬件都有因为优化信號处理的结构特化。要能整合这两种截然不同的需求於单一架构之下,这是另一个挑战的来源。 AI服務器的信號是數字的,量子计算的信息是量子位元。要将數字信息以振幅(amplitude)或相位编码在量子位元上,做为量子计算的起始输入,要耗费很多量子闸(gate)的运算。 大部分量子位元的运算是靠微波来操控量子位元的旋转,控制的信息是类比(analog)信息。AI服務器与量子计算机之间的數據传递,另外还得有數字/类比之间频繁相互转换的额外负担(overhead)。 二者的信號性质和行径差别也很巨大。AI服務器,如同众所周知,是高帶寬的张量(tensor)數據;QPU的數據速率低但重复率高(high repetition)。二者所需要的连线是高频、决定性(deterministic)、小有效荷载控制信號(small payload control signal)。但是AI服務器的架构是为了非同步(asynchronous)、批量导向(batch-oriented)、优化數據输送量(throughput)的目的而设计的,这就是连线设计挑战的来源。 温度是另外一个问题。在網絡上寻找量子计算的图片时,典型的照片是金碧辉煌类似吊灯的图片,但那其实是稀释冰机(dilution refrigerators)。有几个类型的量子位元需要在10~20mK的极低温下操作,这需要稀释冰机来维持极低温。另一方面,AI服務器今日所面临的最大挑战之一是散热,从芯片的运作、數據传导等步骤所产生的高温及热耗散已需要液态冷却的系统工程来处理。将二者整合于一个HQCC系统中,如何处理此二者系统高达7个数量级的温度差距就是天大的挑战。但是这问题也是依量子位元种类而异。理论上,离子陷阱和光子量子位元都可以在室温的环境下工作。 除了以上范畴的问题,还有电磁波干扰、实体层面整合等诸多问题。 如果放下各类量子位元目前发展成熟程度的考虑,整合成HQCC我首先选择的量子计算机是使用光子量子位元的计算机。    首先,延迟的问题对于光子是不存在的。光子量子位元有它自己的问题,譬如光子的非线性作用(nonlinear interaction)机率很小,不易发生作用;在波导(waveguide)中传导可能会有光子损失(photon loss)的问题,但是光子的退相干(decoherence)基本上不算是问题。而且光子之间不会相互作用,光子量子位也不会有电磁波干扰的问题。   AI服務器热耗散的问题也不太影响光子量子计算机。光子量子计算机目前还用冰机的部分只有在超导納米线单光子傳感器(Superconducting Nanowire Single-Photon Detector;SNSPD),温度在1~4K,目的在于提高光子傳感成功的机率至95%。至于光子量子位元本身,置于室温环境即可。 AI服務器也可以透过边缘AI与量子计算机桥接,减少延迟、热耗散、數據互传的问题。这个方法适用于所有种类的量子位元计算机。 光子量子计算机还有3个产业发展的理由成为HQCC喜爱的选择。  一个是光子的QPU制程与半导体兼容,这使得一个新兴技术的商业化量产技术门槛骤然降低。这也是为什么光子量子电脑公司敢于一刚开始就将扩容(scaling)的目标设定于百万量子位元。  另一个是AI服務器由于能耗、散射的诸种原因,正逐渐将系统朝全光学(all-optics)的方向推动。如此趋势当然更有利于与光子量子计算计的互联,一并整合入HQCC。   虽然目前各国目前都将量子计算列为国家战略目标,投入大量资金。但是相较于目前的AI发展是举全球资金市场的力度,对于量子计算的投资只能算是零头。依AI服務器较有利的方向去发展HQCC的量子计算部分,算是搭便车、乘势而起。
World Model:分歧的研究世界
过去两年,「世界模型」(World Model)成为AI业界引用频繁、定义却最分歧的词汇。每个正在做生成式AI或机器人技术的团队都会自称「在做world model」,但仔细看,每家口中的定义并不相同。这个概念本身在认知科学、控制理论与1990年代的强化学习文献中都有过讨论;2018年David Ha与Jürgen Schmidhuber发表的〈World Models〉论文,用神经網絡学习赛车环境的潜在动态,agent完全在内部模型中训练后再转到真实环境执行,这个概念锚定在现代神经網絡的脉络下,奠定「压缩环境动态、用以预测与规划」这个基本定义,也成为后续讨论的共同起点。从这个原始定义延伸,业界各阵营各有解读。Yann LeCun主张的JEPA(Joint Embedding Predictive Architecture)在抽象表示层预测世界下一步,作为agent规划的基础;李飞飞从「空间智能」(spatial intelligence)切入,把世界模型视为可生成、可互动的3D表示,这也是她创立WorldLabs的核心命题;NVIDIA的Cosmos则把世界模型定位为实体AI(Physical AI)的生成式模拟器,依文字、影像或动作条件预测下一秒画面;Google DeepMind的Genie系列则更接近「可互动生成环境」的路线。同一个词,4种版本,分别对应预测、生成、模拟、互动4种不同的工程目标。与世界模型容易被混为一谈的,还有數字分身(Digital Twin)与模拟器(Simulator)。數字分身强调「特定实体的數字映射」,重点在于与真实世界實時同步,背后是工程模型加上IoT數據流。模拟器(如Isaac Sim、MuJoCo、Gazebo)则是基于物理方程序建构的程序化环境,优势是可控、可重现,缺点是建模成本高,且在接触力学与柔性物体上仍存在sim-to-real落差。世界模型则是用神经網絡从數據中学出来的「环境动态函数」,不依赖明确规则,可以生成从未真实出现的场景;本质上是从數據学出来的,不是手工建构的。三者并非互斥,近年逐渐结合:用模拟器产生數據训练世界模型,再以世界模型补足模拟器涵盖不到的长尾场景。厘清这些定义之后,真正值得ICT产业注意的,是世界模型为什么会成为具身智能(embodied AI)能否规模化的关键元件。机器人在实体世界尝试动作,每一次都伴随不可逆的成本。机器人用力一压,可能直接打破物料;自驾车试一个激进变道,可能撞到行人。这与语言模型的处境截然不同——语言模型的错误输出最多被使用者打回,没有实体损害。具身智能的学习与决策循環,因此必须有一层「先在内部模拟一遍」的阶段,而那层内部模拟,世界模型提供可能的工具。举例来说,机器人的复杂推理可以尝试这样运作:每一步推理不只是用语言判断「下一个动作该做什么」,而是先预测「做完这个动作之后,世界会变成什么状态」,再把这个预测送入世界模型验证实体上是否合理;通过验证的动作,才会送到真实世界执行。这把推理链从「在语言空间中规划」拉回到「在实体空间中验证」,正是具身智能与大型语言模型在推理结构上的主要分野。少了这层验证,机器人就难以走出受控场域;补上之后,泛化与规模化才有空间。这个方向在近期研究中陆续出现:部分VLA研究(如CoT-VLA)开始把世界模型与具身推理结合,在执移動作前先在内部模型中生成子目标影像或合成成功轨迹,再回头修正动作;NVIDIA的Cosmos Reason也把世界模型的预测输出接到推理层。这些做法都还在实验阶段,但愈来愈多研究倾向认为:可靠的世界模型,可能是让具身智能走出受控场域的关键元件之一。这个方向的另一面,是运算需求的大幅跃升。大型语言模型处理的是离散token,每秒几十到上百个就算流畅;世界模型处理的是高分辨率、长时序、多模态的影像或3D表示,每一秒影片对应的信息量大致相当于数十万至上百万个token。一旦世界模型真的在具身智能上成形,这波运算需求会比目前以token为主的大型语言模型高出一个量级;不只是token变多的问题,而是运算的维度从「文字」扩展到「世界」。运算之外还有2道更基础的瓶颈。一是3D空间推理仍有明显落差,连物件相对位置、可达性、操作后果这类实体任务中视为基本的能力,目前都还不够稳定。二是实体一致性与互动:影片扩散模型已能生成相当逼真的画面,但物件穿模、重力违反、接触不合理这类错误仍常见——世界模型从數據学动态,没有明确的物理约束,画面好看不等于符合物理规律;要在毫秒等级对输入动作做出实体一致的回应,目前还没有方法能在机器人实际所需的延迟下稳定运作。AI产业现在缺的不是更多世界模型,而是第一个真正需要它的杀手级应用。比较值得追踪的不是又有哪家发表新版世界模型,而是3D推理与低延迟互动这两层基础能力会在哪一个垂直情境先站稳;那个情境多半也会成为第一个真正需要世界模型的应用。过去几十年的科技发展也显示,这类路线分歧本就是探索解方的过程;一旦某条路线走出明确的产业效益,研究方向往往会再次收敛。
一千臺自主机器人须跨越哪道鸿沟?
过去十五年,几项产业典范先后从0到1跨越商用门槛。手机从2007年iPhone重新定义形态,5年后(2012)出货进入交叉点;ADAS从2014年深度学习推动视觉識別成熟、Tesla Autopilot量产起算,到2022~2024年中国市场进入L2+标配状态,跨越约十年;大型语言模型从2020年GPT-3到2023年ChatGPT,逐渐改变生产力的样貌;自驾出租車则经过七年突破一千辆的关键门槛,开始逐步规模化—领先业者已扩张到约3,000辆,每周行驶里程仍在倍数成长。每段路径的起点不同(形态创新、傳感突破、能力涌现、车队密度),但跨越鸿沟的共同模式相当清楚:从来不是单一公司独立完成,而是技术突破、形态定义、平臺开放、规模制造、法规介入、终端代理,各个关卡由不同类型的业者接力跑完。跨越之后的影响也大致分3种型态:产品取代(手机重新定义使用情境,feature phone供应商消失,换代最快最彻底)、产业重组(ADAS成为汽车标配,整个供应链、竞争力与价值重新分配,产业形态本身不消失)、生产力样貌重塑(大型语言模型不取代人,但改写人做事的方式与组织流程,速度最慢但影响最深)。机器人似乎也站在关键的时间点。2024~2025这两年,多家公司把通用机器人系统推上现场,VLA架构从学术论文走进产品,工厂试点开始小规模部署。如果把问题更具体化:今天还没有一家公司能让1,000臺机器人在开放场域中达到完全自主的长时间运作。目前最具规模的部署,要不依赖预先规划的场景(仓储AMR),要不依赖可观比例的線上操作员介入(配送机器人)。「能做出一臺」与「能让一千臺真正自主运作」,是两道性质不同的门槛。实验室里示范1臺机器人泡好1杯咖啡很惊艳;要把同样的能力放大到医院物流、餐饮后场、产线组装这类场域、千臺规模、每天10小时连续运转,又是完全不同层级的问题。以仓储AMR为例,某大型电商物流中心同时运行超过4,000臺自主移动机器人,条件是预先铺设的格状地板、固定路径、不允许外物进入。这4,000臺跑的是预先规划好的路径,不是在开放场域中實時感知、规划、决策。把仓储为机器人改造,是先把场景的不确定性拿掉,让机器人在规划过的环境内运转——这在工程上有效,但离真正的自主能力还有差距。接下来几年,机器人能不能真正拥有「自主性」、像前述三项典范那样跨越chasm(鸿沟),技术上的关键在两块长期被低估的能力:「长时序规划」与「泛化」。第一块是长时序规划(long-horizonplanning)。煎蛋翻面、涂果酱、把箱子搬上输送带,任何「看起来很简单」的任务拆开都是十几步连续决策。每一步当下做对不代表整体能完成;累积误差(compoundingerror)、子目标冲突、傳感杂讯在某一步触发误判,整段规划可能就此失效。举例来说,即使每一步有9成准确率,连续10步整体成功率仍会掉到3成左右。机器人面对的是物理环境,每一步的误差不只是文字错误,可能是手臂卡住、物件掉落、推倒旁边的杯子。目前VLA模型在短任务上已展现基本能力,但30秒以上的连续任务、跨子目标的重新规划、失败后的自我恢复,仍是研究热区。没有这层能力,机器人无法独立完成厨房一道菜、清洁一间病房、组装一块主机板。第二块是泛化能力。换个光源、换个物件、换个房间布局,机器人的成功率能否维持?这个问题的根源不在模型本身,而在训练數據的覆盖度。VLA模型的能力直接受限于數據的场域多样性、视角多样性、物件多样性、失败模式多样性,任何一个维度覆盖不足,部署到现场就会持续露出缺陷。模拟器可以补一部分,但接触密集场景与傳感杂讯的真实分布只能部分逼近,这在前一篇Sim-to-Real已详述。真正的解方是让部署现场本身成为持续的训练數據来源:千臺机器人在工厂、餐饮、物流连续运作,每一次失败、每一个未见场景回流中央模型,经筛选、标注、再训练,再以OTA更新回边缘装置;规模本身成为模型进化的燃料。这个自我强化的回路就是业界所称的fleet learning。自驾车产业从2016年起花了将近十年才把它建起来,工程上真正的重点不在模型,而在數據管道、筛选与标注、版本管理、现场运维与维修回应網絡,每一块都是独立工程系统,缺一块整个回路就跑不起来。其他几项在前几篇已展开:灵巧操作的触觉与力回馈、Sim-to-Real落差、VLA安全设计(执行前弃权、执行中监控、语义层的物件风险)。这些在工厂试点阶段都在被解,但要走到1,000臺、10,000臺规模时,都会与长时序规划、泛化、fleetlearning纠缠在一起,任何一项补不齐,整个回路就跑不满。技术之外,还有2道非技术障碍会挡住采购端决策。一是认证体系与持续学习的冲突:现行的工业与自主机器人认证(ISO10218、UL3300、2027年生效的欧盟机械法规)建立在「行为可预测、可冻结、可审计」的前提,fleet learning的核心却是「模型在部署后持续更新」,OTA之后是否要重新认证目前没有明确答案。二是保险与责任归属:当机器人停掉产线或撞到推床,责任主体是制造商、部署方、模型供应商、还是现场整合商?自驾车产业讨论了十几年才大致收敛于「L4/L5由制造商承担」,服务型机器人界面更分散,责任分层只会更复杂。没有保险背书,采购方就无法承担对应的风险。场景选择也是一道初期障碍。哪一种垂直情境适合一个刚起步的机器人系统开始真正自主运作?这个问题没有最佳解,但前述无人出租車业者的轨迹给了清楚的策略:先把问题的开放性压到够小,划出明确围栏,在受控边界内累积运转时数、收集真实场域數據、把例外情境逐一解掉,回头看清楚这个任务的核心运作逻辑,然后才把边界往外推。该业者从特定城市的受限路段起步,逐年向外扩大运行范围,每一次扩张都是在前一个边界内把长尾收敛得足以承接下一轮。机器人对应的问题是:哪些垂直场域同时有足够的需求密度、任务重复性与容错空间,能让fleet learning回路真的跑起来?答案多半在工厂某条产线、特定仓储格局、特定餐饮后场、医院药局,而不是「家庭服务机器人」这种看似最大、实际开放性也最大的终局场景。业界对机器人规模部署的时间表,多半指向2028~2030年才会出现以万臺为单位的案例。能否成立,取决于接力赛每一棒能否在这几年同步接好。技术上要把长时序规划与fleet learning推到产业可用的水位;商业上要把形态定义、开放平臺、规模制造、终端代理这几棒补齐;制度上要拿出认证体系与责任归属的答案。3项都同步到位,这个时间表才会兑现。对臺湾供应链来说,真正的押注点不是哪个整机厂商会赢,而是哪一棒会在自己擅长的位置接好。
AI时代的电击治疗
AI能带给我们的好处,但如何拿捏AI介入我们生活的程度,则值得深思。尼恩(Anaïs Nin, 1903~1977)是二十世纪少数能将精神分析、女性意识与文学内省深度融合的作家。她与精神分析师奥托・兰克(Otto Rank)往来密切,深受其「创造性人格」理论影响。尼恩认为,若一个人不面对内在的冲突、欲望与潜意识,便只能在表面上过著「正常」的生活,其实在精神上即早已死去。她曾说:「数百万人就这样活著或死去,却不自知:他们在办公室工作。他们开著车。他们与家人野餐。他们养育孩子。然后,某种电击治疗(shock treatment)发生了,可能是某个人、一本书、一首歌,感动唤醒了他们,将他们从死亡中拯救出来。但有些人却从未清醒。」这段话的启示深刻而警醒。尼恩所谓能拯救人心的「电击治疗」并非医学隐喻,而是象征灵魂觉醒的瞬间。那可能是一次巧遇、一篇文学作品或一段音乐,它们的力量来自人性共鸣、艺术感悟与知识震撼,提供反常规、非线性、无法量化的体验。然而,在AI深度介入人类生活的时代里,演算法倾向推荐我们「可能会喜欢」的内容,不断强化既有观念与习惯。真正的觉醒,反而来自那些无法被完美计算、能打破「过度拟合」(overfitting)生活的突发与深刻时刻。在机器学习中,「过度拟合」指模型过于贴合训练數據而失去泛化力。例如一位喜爱古典钢琴的用户,会不断被AI「过度拟合」的推荐萧邦(Frédéric Chopin)、德布西(Claude Debussy)等相似乐曲,平臺借此打造出一个精致而封闭的音乐茧房,使他几乎没有机会接触到爵士乐即兴中的生命律动,或摇滚乐现场如山洪暴发的情感冲击。与此相对,尼恩所说的「电击治疗」,或许正是这位爱乐者在某个夜晚,偶然被朋友拉去一个拥挤的Live House。当电吉他的音墙与鼓点如实体般撞击他的胸腔,臺下素不相识的人们在汗水与嘶吼中融为一体,这种全然陌生、未被演算法预约的集体狂欢,便成了一记将他从优雅却单一的审美秩序中震醒的「电击」。尼恩笔下的「生活」是一种自动化、习惯化、缺乏反思的存在。到了AI时代,这种无意识的状态被赋予新样貌。人工智能的便利似乎为人开启自由,却也悄然削弱人主动选择的能力。我们的工作、消费、娱乐乃至社交,皆在AI的建议与预测中被形塑。「在办公室工作」「开著车」等例行行为,如今仿佛转化为在高度优化却缺乏灵魂参与的系统中运行的程序。许多人就在这样的状态中度过一生,看似充实,实则精神贫瘠。我们面临AI时代的来临,必须主动寻求那些不属于演算法舒适圈的经验。若让AI决定信息流与选择,我们将难以遇见那场能「将我们从死亡中唤醒」的震撼。真正的清醒,在于对效率与便利保持批判距离,并维护人类经验中非理性、创造性与对意义的追寻。尼恩的话提醒我们:AI可以优化生活,却可能抹杀人类对生命意义的主动探索。当我们享受AI的便利时,更应警觉那份被取代的思考能力。在自动化的洪流中,唯有在震撼与思索之间,人性才真正苏醒。
Sim-to-Real:虚拟世界的局限
上一篇谈到机器人训练數據的4种来源:遥控示范、模拟器、影片、穿戴设备。其中模拟器看似最方便——數據生成边际成本接近零、场景参数(天候、情境等)可以随意调整。从MuJoCo、IsaacSim到Genesis,业界持续推进高逼真度物理引擎,NVIDIA也不断强调世界模型Cosmos在机器人训练上的优势。模拟器值得投入的理由不少。强化学习要靠大量试误,在实体机器人上几乎不可行;VLA基础模型在预训练阶段也需要大量多样场景,这两件事前几篇已谈过。上一篇也介绍过把模拟当成數據工厂、合成大量轨迹的「重模拟」路线。模拟器更是加速应用开发的标准工具:给定机器人结构、夹爪规格、场域布局,工程师可以先在虚拟环境中迭代演算法、验证任务规划,不必等实机。这件事在ADAS与自驾领域已是标准做法,移动机器人与工厂自动化也在跟进。不过模拟器训练出的策略搬到真实机器人时,常常表现不如预期;现象一般称为sim-to-realgap。接触力学是第一个盲点,上一篇已点出布料、电线、食材这类柔性物体是目前物理引擎的共同难题,但另有几个较少被提及的盲点。第一个是力回馈与精准度。夹爪抓起一个纸杯不压扁、拧开瓶盖的扭矩判断、插针孔的次毫米对位,这些动作在真实世界要靠触觉、扭力傳感与视觉循環一起完成;模拟器里的傳感器多半是理想模型,与真实傳感器的杂讯分布并不一致。消费端夹爪看似容忍度大,但一进到电子业的组装场域、医疗器材或食品加工,容差瞬间收敛到数十微米到几毫牛顿的区间;即使模拟精度与真实系统相当,残余的sim-to-real落差仍会直接反映在成功率。第二个是驱动端与系统端的落差。模拟器多半假设电机瞬时响应、通讯完美、状态完全可观测;真实系统却有电力电子的延迟、齿轮反向间隙、电池电压波动造成的扭矩不稳,再叠上封包遗失、时脉同步误差、以及傳感受限下的决策缺口。更关键的是,这些差距会随时间漂移:机构磨损、电池老化、现场網絡变动,模拟器即使再精细,也跟不上现场长期运转的累积。第三个是物件层级的风险。前一篇谈VLA安全时已详述情境危险性:同样一个抓取动作,物件是刀还是汤匙、是热饮还是冷饮,风险天差地别;这层语义层的风险,虚拟环境在几何与动力学层面上不会主动标注,必须靠真实场域的數據补齐。还有一层更难处理的问题——物件状态的变动,而这些变动往往不在物理引擎的描述语言里。微波炉是不是正在被占用、抹布是不是脏的、平底锅刚用过还没洗、油是不是已经酸败。自然语言指令通常不会把这些条件写明,但实际执行时缺一不可。我们近期的研究就把这类「动态可操作性」(dynamic affordance)纳入评估,要求代理人在动作前先判断物件当下是否可用,而非当成固定几何体;测试结果显示,这个额外的判断确实能改善代理人在新场景下的表现。这类问题暴露一个本质限制:物理引擎模拟的是「物件怎么动」,不是「物件现在可不可以用」。前者是物理,后者是常识。虚拟世界可以把桌面渲染到以假乱真,但「桌面脏污还是刚被擦拭过」这件事,模拟器不会主动生成,也不容易标注。真实场域的不确定性,很大比例是这类状态变动累积而来。传统机器学习对训练數據的基本要求,在VLM/LLM新典范之下并没有放宽,大致有3个面向。第一是视觉与场景的多样性:模型要在不同光源、视角、杂物分布、场景配置下都能稳定运作,视觉长尾覆盖不足,泛化能力就有限。第二是失败模式的多样性,这和视觉多样性是两件事;机器人真正要学的不是「做对一次」,而是在各种失败边缘能不能察觉并调整,这类分布只能刻意取得,不会自然出现。第三是领域贴合度:要让模型学会某个场域的操作边界,數據必须来自该场域,一个合格的物流仓、医院药局、餐饮厨房,都有自己独特的动作分布与例外情境。回到模拟器,这三件事它能补的程度不一。视觉多样性已有相当进展,特别是场景合成与domain randomization,但接触密集场景仍有差距。失败模式合成则是模拟器较具独特性的角色:不安全操作、碰撞、摔落、错抓这类情境,在真实场景上难以大量反复上演,模拟器可以放心重现危险操作、组合极端条件,是「安全地大量失败」的少数可行路径之一。至于领域贴合度,模拟器只能部分逼近,难以取代真实场域數據;这也是其他训练數據必要的原因。机器人产业真正需要的,或许不是更逼真的模拟器,而是让部署现场本身成为持续训练的數據来源。实体机器在真实场域运作时,能察觉自身错误、退回安全状态,并把偏差信號回馈到模型迭代。这个思路在數字世界刚被走通。近期的代理型AI(Agentic AI)推理并非总是准确,但搭配验证(verification)、错误侦测与再修正机制,系统在迭代中逐步收敛到可用水准。实体AI(Physical AI)有机会走上同一条路:用模拟器建立预训练的底层,用真实场域的错误信號回馈微调,把部署规模转化为模型进化的燃料。这里的「验证」不只是軟件验证,还包括独立的安全监控层;前一篇谈VLA安全时提到的执行前弃权、执行中监控,正是这个回路的实体版本。模拟器仍是地基,但模型真正变强的地方,会在实体部署之上。机器人部署场域的营运數據,未来几年会逐步变成比硬件规格更关键的资产;谁能搜集、清洗、回馈这些數據进模型,谁就能把「单次出货」变成「持续累积的优势」。Sim-to-Real的问题,未必能靠「把模拟做得无比接近真实」彻底解决,这条路的边际报酬看来正在递减。比较务实的方向,或许是接受虚拟与现实之间确实存在的差异,透过场域數據微调、验证与修正迭代逐步提高成功率。如同代理型AI在數字世界走过的路,机器人也可能借此在实体世界站稳脚步。
VLA机器人的「安全」该如何设计?
服务型与移动型机器人在商业场域的部署密度,过去3年明显加速,巡检、仓储、餐饮、商场、医院物流、户外递送逐一导入;这些机器人驱动核心仍以预先定义的规则与固定流程为主。紧接而来的技术主轴,是 VLA(Vision-Language-Action)架构:以 LLM/VLM 为大脑,帮助机器人理解自然语言指令、在更有弹性的情境下做决策,展现传统机器人没有的适应力与自主性。但更多能力、弹性,也隐含更多风险。「安全」这件事被相对低估了。新一代VLA驱动机器人的安全框架,不是把工业机器人那套「围栏加急停」放大就能沿用。传统机器人的安全是工程问题——傳感器划出实体禁区、动作在认证阶段锁定。VLA 的弹性打破既有前提,使过去二十年的安全工程资产难以直接套用。指令本身成为新的误解与攻击面,至少4类风险是传统安全框架没处理过的。第一类是指令层的攻击面。LLM 本身的越狱(jailbreak)与prompt injection攻击,在接上动作决策点之后会整套传染到实体世界;语言领域的「胡言乱语」,到VLA场景就成为危险动作。第二类是语义对齐不等于动作对齐(linguistic-action alignment gap);预训练的安全对齐主要发生在语言输出层,动作空间没有经过同等强度的对齐;同一个危险指令,语言层可能拒绝回应,动作层却不受这道防线约束。第三类是物件安全盲点。当指令是「把桌上的东西收走」,模型不会自动区分刀具、药瓶、热饮与一般杂物。第四类是自损与环境碰撞。忽视自身硬件限制与场域结构,产生鲁莽动作与反复碰撞,既损坏机器人也威胁周边人员。更根本的限制是开放世界的长尾。训练數據不可能涵盖所有场景,模型对「角落情境」(corner cases)的行为难以预测。这个问题在自驾车已反复验证,15年里程累积仍不足以压平长尾;而服务型机器人的场景空间只会更发散,道路有车道线可循,商场走道、医院走廊、仓储区交叉口却没有同等清晰的边界。传统安全方案多仰赖控制障碍函数(Control Barrier Function;CBF)这类实体滤波器,如同为机器人设下一层「电子围篱」,在数学上保证其不进入物理禁区。这套方法在低自由度系统有效,但面对高自由度机械臂、或在复杂场域运作的移动机器人时,状态空间会指数成长。更根本的是,它也处理不了「指令本身就危险」这类不在实体空间发生的风险。实体滤波器只看机器人自身的状态空间,不问它正在互动的物件是什么。CBF可以保证机械臂的关节角度不超出安全范围、末端执行器不撞到墙,但它不知道夹爪握著的是水瓶还是药瓶。填补这个空缺的新兴方向,是把物件的情境危险性纳入规划。已经有研究团队让模型在生成动作序列时,把「这个瓶子里是药」、「这个容器里是热饮」、「这把工具是尖锐的」一并纳入考量,在餐饮、医院、仓储等场景特别关键。近年学界也从2个方向补上指令层的缺口。一个方向是执行前的判断:当机器人侦测到指令超出自身能力,或在语义上有潜在危害时,应主动弃权(abstain)而非硬做。另一个方向是执行中的监控:在模仿学习(Imitation Learning)策略运作时,用另一个轻量模型實時评估策略输出是否异常,一旦偏离就触发人工接管或安全模式。我们最近的两个研究(VLN-NF与AED)对应的就是这两件事:执行前的「要不要做」,与执行中的「做错了要怎么尽早发现」。把实体滤波器与语义层的行为守护者并置,是目前能实际部署的务实组合。真正决定 VLA 机器人能否走出demo、进入大规模部署的,其实不是「永远不出错」,而是「出错之后能救回来」。这个观念在安全工程里有个说法叫Safety II:重点从「避免失效」转向「维持韧性」。自驾车产业花了多年才建立「最小风险操作」(minimal risk maneuver)的观念:当系统无法继续行驶时,车辆要能自主进入安全停等状态——例如平顺减速、打方向灯、靠边停车,而不是直接把方向盘抛回给驾驶。这件事在规范上看似直观,在工程上却极为困难:需要另一套独立于主自驾系统的冗余去判断「何时我已经不该继续」,并在有限时间内完成安全退场。服务型机器人可能会有类似路径,但场景更复杂。工厂可以急停,商业场域不行——餐厅送餐机器人在用餐高峰停在走道中央,挡住的是出餐动线与服务生通道;医院物流机器人若在走廊中央断电,挡住的可能是紧急推床;仓储AMR若在交叉口卡住,后面可能有一整列后续车辆与作业人员。这些场景都没有「路肩」这种已被定义好的安全区可以退守,恢复行为本身就必须是一个具备情境判断的决策,而不是一个缺省动作。传统的恢复机制是写死的规则:抓失败就重试、路径不通就后退。但VLA的动作空间远比工业机器人复杂,规则式恢复很快碰到上限。新一代的研究方向,例如牛津大学(Oxford)团队2026年提出的CycleVLA,让机器人具备「子任务回溯与重新采样」的能力:侦测到异常状态时,退回上一个合理子任务重新生成动作序列,而不是在当前已经失败的轨迹上一路错下去。这条路线把恢复从「固定流程」变成「动态决策」。技术之外,另一个正在快速逼近的议题是标准与认证。工业机器人(ISO 10218于2025年大改版)、仓储移动机器人(ISO 3691-4、北美ANSI/RIA R15.08)、服务机器人(UL 3300于2025年获OSHA认可)3条轨道各自在不同成熟度;EU AI Act与EU Machinery Regulation 2023/1230(2027年1月生效)则已把自主机器人列为高风险系统,要求风险管理、可解释性与實時监督界面。但VLA这类具备语言理解与自主决策能力的系统,目前没有任何一套标准完整覆盖。设计上除了优化能力,也必须对齐安全与合规,这已是能否回应RFQ/RFI的基本门槛。VLA机器人的竞争力,未来几年不会在于谁的动作最快、谁的模型最大,而在于谁的系统在面对未知环境与突发错误时,能同时展现出多层安全能力:实体滤波器守住空间边界,物件安全约束判断互动对象的情境危险性,语义守护者决定要不要做,韧性恢复决定做坏了还能否回到正轨。这些AI层的能力都运行在硬件层的传统安全primitives(独立MCU、扭矩限制、机械e-stop)之上;硬件地基仍然必要,但新一代的安全能力都落在AI层。四层缺一不可,而每一层都还有明显的技术推进空间。这也说明安全不是机器人上市前的选配功能,而是整个系统设计的地基。对准备切入这个产业的团队而言,智能安全防护做得多深、多早,很可能决定产品能走多远。
物联网控制的微型世界
一个微型世界(minimture world)的环境反映广阔的大世界。在这样的微型世界里,就像你突然变成巨人,置身于最微小的村庄之中,这是孩子们梦寐以求的情景。随著今天物联网 (IoT) 技术的先进发展,互动的微型世界可以实现,使孩子们的梦想成真。私人模型村庄和微型公园可能自19世纪就已存在,但直到1930年代到1950年代,这一类型才发展成为旅游景点。早期的例子包括英国的Bekonscot和Bourton-on-the-Water。「小小世界」的概念是由迪士尼(Water Disney)为联合国儿童基金会 (UNICEF) 支持创建的,并为 1964~1965年纽约世界博览会制作。该景点非常受欢迎,经过2个展示季后,被运往迪士尼乐园,于1966年5月28日开放。自那时起,它被扩展到包括2024年在日本东京推出的「小小世界与格鲁特」。自1960年以来,许多微型世界相继建造。例如,在莫斯科的丽笙酒店一楼,有一个名为「Diorama Moscow 」微型世界。它展示1977年莫斯科市中心的模型,比例为1:75。模型上方的照明变化,呈现日夜场景,非常壮观。现有的商业营运微型世界为观众提供一个极好的单向用户体验。然而,据我们所知,这些微型世界中,没有一个允许观众远程控制微型设施,例如交通灯、降雨、风等元素。换句话说,微型世界的组件与观众之间的互动是有限的。此外,据我们所知,学术文献主要关注于網絡世界的虚拟现实或增强现实方面,这些并不如实体世界那么吸引人。目前没有研究探讨观众与实体微型世界互动的体验。于是我们和初上石公司的林瑞堂先生合作,发展出DioramaTalk,通过使用物联网 (IoT) 和人工智能 (AI) 技术,使線上互动成为可能。这个方法应用于名为微型福尔摩沙(Miniature Formosa)的微型世界。微型福尔摩沙由初上石商业营运,展示臺湾的美丽景点,包括臺南的大东门(图1(3))、野柳的女王头、花莲的太鲁阁峡谷等。微型福尔摩沙的一个特点是其他微型世界没有的,就是它允许模型车在微型道路上赛车。每辆车(图1(4))都配备1个前视镜头,提供视讯串流以指导观众进行远程驾驶。此外,微型福尔摩沙在图1中的(5)到(10)位置安装6个固定旋转镜头。DioramaTalk是基于IoTtalk开发的应用平臺,其中微型福尔摩沙的所有傳感器和致动器都被视为物联网设备。微型福尔摩沙使用多个镜头图像来确定车辆的位置。这涉及处理来自6个固定镜头的实时图像,每个镜头以30 FPS运行,需要快速且准确的位置反馈。视讯图像被发送到DioramaTalk进行车辆检测和追踪。DioramaTalk以YOLO(You Only Look Once)处理视讯图像,将之保存在名为ImageDB的数据库中。DioramaTalk分析ImageDB中的视讯图像,以检测路口的交通状况,将检测结果发送到显示设备和Diorama致动器,以控制交通灯。DioramaTalk在交通信號化、工作区营运和匝道控制等领域进行车辆队列消散分析。它利用深度学习准确捕捉混合交通流的队列特征,并提供强大的消散持续时间估计,从而最佳化交通灯信号规划。DioramaTalk的经验告诉我们,智能城市的AI模型可以在微型福尔摩沙的模拟环境中进行预训练,加速它们在现实世界环境中的训练。在智能城市的AI和物联网应用实际推出之前,可以将它们方便地整合到 DioramaTalk,在微型福尔摩沙模拟环境中模拟它们。其次,最重要的是,我们为孩子们提供与微型世界互动的乐趣。
机器人训练數據从哪里来?
太平洋两岸的机器人新创与顶尖实验室,这一年来在一件事上达成共识:模型架构不再是唯一焦点,數據成为竞争的核心资源。不论技术路线如何演变,多数团队最终都会遇到同一个瓶颈——机器人移動「训练數據」的规模严重不足。大语言模型的成功,建立在数十萬億个从網絡爬取的文字數據上;机器人需要的是机器人在真实物理环境中的动作序列、傳感器数值与任务标注。研究估算,目前主流机器人训练數據集的规模,比语言模型少了3个数量级以上。2025年底,Physical Intelligence的π₀在少量示范后的自主执行中,于数分钟内完成叠衣任务;NVIDIA 的GR00T N1.6在同一个模型框架下可以同时操控7种不同机械手臂。这类进展的背后,架构设计看似重要,但數據规模才是关键。數據缺口,是机器人基础模型能否真正大规模实际部署的天花板。面对这个落差,学术与产业界正从4个方向同时突破數據障碍:遥控示范、模拟器、網絡影片、穿戴设备。4条路线各具特色,可以互相配搭。遥控示范(teleoperation)是目前高品质數據的主要来源。操作人员透过 VR 头盔或主从控制臂等線上界面操控机器人,系统同步记录动作序列与傳感器数据:數據真实,实体互动完整,动作标注精确。openVLA的训练基础就是采用97万笔这类示范數據。近来也出现更轻量的工具,史丹福大学(Stanford) 团队开发的 UMI(Universal Manipulation Interface)以手持夹爪装置,内建鱼眼镜头与惯性傳感器,操作人员在任意场景示范即可录制,大幅降低收集门槛。问题在于规模:每笔數據仍需人力投入,以中国各地的机器人训练中心为例,工作人员每天重复数百次开关微波炉、叠衣服,扩张速度终究受制于人力极限。模拟器(simulator)提供的是另一个极端:近乎无限的數據量、几乎零边际成本、可精确控制场景参数。从商业平臺到MuJoCo、Genesis等开源工具,各样投入都在朝高逼真物理模拟推进。但核心难题不在画面是否逼真,而在接触力学(contact dynamics):两物体碰触瞬间的摩擦力、形变与反作用力,即使模型极度精细,转移到真实机器人后仍常出现误差。布料、电线、食材等柔性物体尤为困难,传统刚体模拟难以精确处理。面对sim-to-real gap,目前尝试2条路线:一是「域随机化」(domain randomization),刻意扰动光影、质感、摩擦系数,让模型学会不依赖特定环境特征;二是 NVIDIA 的Cosmos世界基础模型,以大量真实影像学习物理直觉,让神经網絡本身充当更逼真的模拟器。2条路都有进展,但让模拟器成为可靠的免费數據工厂,仍有一段距离。網絡影片是规模最大、却最难直接使用的来源。YouTube上海量人类执行日常任务的影像,蕴含丰富的物件互动与动作语义,但影片里看不到力道、关节角度与夹爪状态,也没有任何动作标注,且人手与机器人末端执行器存在根本的形态差异(embodiment gap)。Meta的Ego4D等大规模第一视角人类行为數據集,是目前这个方向最具代表性的尝试。跨具身学习(cross-embodiment learning)是跨越这道障碍的主要技术路线:透过汇集来自不同机器人平臺与人类示范的數據联合训练,让模型学到不依赖特定硬件形态的通用动作表示;我们近期的研究也证实,这是一个有效的策略。具身智能(Physical Intelligence)最新研究进一步显示:当跨具身预训练规模足够大,「人类影片迁移到机器人动作」的能力会自然出现,不需要复杂的动作转换层,意味著網絡影片的可用性比原本预期的更高。穿戴设备(wearable devices)是最近快速发展的路线。轻量外骨骼或动作捕捉装置让操作人员在自然场景中活动,同步记录全身动作与环境互动,再转换为机器人可学习的格式。NuExo、HumanoidExo已能在户外场景收集全上肢动作數據,场景多样,數據自然,操作者的活动自由度也远高于固定工作站的遥控示范。难点在于「动作转换」(motion retargeting):人体关节结构与机器人机械结构不完全对应,需要精密几何映射,且转换品质因平臺而异。综合目前领先团队的做法,目前正在收敛出一个「两段式」數據架构,逻辑上与LLM的预训练/微调高度相似。第一阶段是大规模、多元的预训练,以網絡影片、合成模拟數據为基础,让模型建立视觉语义与通用动作直觉;第二阶段是少量、高品质的微调,以遥控示范或穿戴设备录下的真实机器人數據,将能力实际部署到特定任务与平臺。各家在这个數據策略的分歧,集中在对模拟器的信任程度。NVIDIA的GR00T N1是「重模拟」策略的代表:训练數據呈3层金字塔,底层是網絡影片与人类动作影像,中层是Isaac平臺与Cosmos模型生成的合成轨迹,顶层才是真实遥控示范數據。NVIDIA曾在11小时内生成78万条合成轨迹,相当于6,500小时人工示范;加入合成數據后,模型表现比纯真实數據提升40%,是其力推模拟路线的具体依据。相对地,许多新创——尤其是中国团队——对sim-to-real持保留态度。在精细操作上,模拟器的接触力学与真实世界仍有落差,与其花工程资源桥接误差,不如直接扩大真实數據的收集规模。具身智能的 π₀以横跨7种机器人平臺、68项任务、超过1万小时的遥控示范數據进行跨具身预训练,针对新任务微调仅需1至20小时。Generalist AI的GEN-0则更为彻底,完全不用模拟,以27万小时的纯真机互动數據训练,每周持续新增逾万小时。这几条路线背后有一个共同的结构:遥控示范与穿戴设备录下的數據,目前主要扮演「微调材料」而非「训练主体」的角色,提供的是最后那10%让模型真正能用的能力,而非语义理解的来源。这个分工,正在促使各条路线重新定位自己的核心竞争力:模拟器拼的是物理引擎真实度,網絡影片拼的是动作标注技术,遥控示范拼的是针对特定任务的示范品质。投资机构(如Merrill Lynch)预估2025年全球人形机器人出货量约1.8万臺,是2024年的7倍;协作型机械手臂、自主移动机器人(AMR)等更成熟的平臺部署规模更大,也都在加速整合新一代AI模型。电动车厂与第三方物流业者已在工厂与物流中心商业运转。數據积累与部署量之间的正向循环已开始运作:部署量愈大,场域數據愈多;數據愈多,模型泛化愈强;模型愈强,部署门槛愈低。真正的竞争优势,在于谁能以最符合成本的方式取得有效數據、在实际场域中持续迭代,进而建立起真正的數據护城河(moat)。
智能应用 影音