World Model:分歧的研究世界

徐宏民
2026-05-20
AI语音摘要
00:49

过去两年,「世界模型」(World Model)成为AI业界引用频繁、定义却最分歧的词汇。

每个正在做生成式AI或机器人技术的团队都会自称「在做world model」,但仔细看,每家口中的定义并不相同。这个概念本身在认知科学、控制理论与1990年代的强化学习文献中都有过讨论;2018年David Ha与Jürgen Schmidhuber发表的〈World Models〉论文,用神经網絡学习赛车环境的潜在动态,agent完全在内部模型中训练后再转到真实环境执行,这个概念锚定在现代神经網絡的脉络下,奠定「压缩环境动态、用以预测与规划」这个基本定义,也成为后续讨论的共同起点。

从这个原始定义延伸,业界各阵营各有解读。Yann LeCun主张的JEPA(Joint Embedding Predictive Architecture)在抽象表示层预测世界下一步,作为agent规划的基础;李飞飞从「空间智能」(spatial intelligence)切入,把世界模型视为可生成、可互动的3D表示,这也是她创立WorldLabs的核心命题;NVIDIA的Cosmos则把世界模型定位为实体AI(Physical AI)的生成式模拟器,依文字、影像或动作条件预测下一秒画面;Google DeepMind的Genie系列则更接近「可互动生成环境」的路线。

同一个词,4种版本,分别对应预测、生成、模拟、互动4种不同的工程目标。

与世界模型容易被混为一谈的,还有數字分身(Digital Twin)与模拟器(Simulator)。

數字分身强调「特定实体的數字映射」,重点在于与真实世界實時同步,背后是工程模型加上IoT數據流。模拟器(如Isaac Sim、MuJoCo、Gazebo)则是基于物理方程序建构的程序化环境,优势是可控、可重现,缺点是建模成本高,且在接触力学与柔性物体上仍存在sim-to-real落差。世界模型则是用神经網絡从數據中学出来的「环境动态函数」,不依赖明确规则,可以生成从未真实出现的场景;本质上是从數據学出来的,不是手工建构的。三者并非互斥,近年逐渐结合:用模拟器产生數據训练世界模型,再以世界模型补足模拟器涵盖不到的长尾场景。

厘清这些定义之后,真正值得ICT产业注意的,是世界模型为什么会成为具身智能(embodied AI)能否规模化的关键元件。机器人在实体世界尝试动作,每一次都伴随不可逆的成本。机器人用力一压,可能直接打破物料;自驾车试一个激进变道,可能撞到行人。这与语言模型的处境截然不同——语言模型的错误输出最多被使用者打回,没有实体损害。具身智能的学习与决策循環,因此必须有一层「先在内部模拟一遍」的阶段,而那层内部模拟,世界模型提供可能的工具。

举例来说,机器人的复杂推理可以尝试这样运作:每一步推理不只是用语言判断「下一个动作该做什么」,而是先预测「做完这个动作之后,世界会变成什么状态」,再把这个预测送入世界模型验证实体上是否合理;通过验证的动作,才会送到真实世界执行。这把推理链从「在语言空间中规划」拉回到「在实体空间中验证」,正是具身智能与大型语言模型在推理结构上的主要分野。

少了这层验证,机器人就难以走出受控场域;补上之后,泛化与规模化才有空间。

这个方向在近期研究中陆续出现:部分VLA研究(如CoT-VLA)开始把世界模型与具身推理结合,在执移動作前先在内部模型中生成子目标影像或合成成功轨迹,再回头修正动作;NVIDIA的Cosmos Reason也把世界模型的预测输出接到推理层。这些做法都还在实验阶段,但愈来愈多研究倾向认为:可靠的世界模型,可能是让具身智能走出受控场域的关键元件之一。

这个方向的另一面,是运算需求的大幅跃升。大型语言模型处理的是离散token,每秒几十到上百个就算流畅;世界模型处理的是高分辨率、长时序、多模态的影像或3D表示,每一秒影片对应的信息量大致相当于数十万至上百万个token。一旦世界模型真的在具身智能上成形,这波运算需求会比目前以token为主的大型语言模型高出一个量级;不只是token变多的问题,而是运算的维度从「文字」扩展到「世界」。

运算之外还有2道更基础的瓶颈。一是3D空间推理仍有明显落差,连物件相对位置、可达性、操作后果这类实体任务中视为基本的能力,目前都还不够稳定。二是实体一致性与互动:影片扩散模型已能生成相当逼真的画面,但物件穿模、重力违反、接触不合理这类错误仍常见——世界模型从數據学动态,没有明确的物理约束,画面好看不等于符合物理规律;要在毫秒等级对输入动作做出实体一致的回应,目前还没有方法能在机器人实际所需的延迟下稳定运作。

AI产业现在缺的不是更多世界模型,而是第一个真正需要它的杀手级应用。比较值得追踪的不是又有哪家发表新版世界模型,而是3D推理与低延迟互动这两层基础能力会在哪一个垂直情境先站稳;那个情境多半也会成为第一个真正需要世界模型的应用。

过去几十年的科技发展也显示,这类路线分歧本就是探索解方的过程;一旦某条路线走出明确的产业效益,研究方向往往会再次收敛。

现任台灣大學信息工程学系教授,曾任富智捷(MobileDrive)技术长暨副总经理,推动ADAS及智能座舱系统产品进入全球车用市场。纽约哥伦比亚大学电机博士,专精于机器学习、电脑视觉、自驾车、机器人等领域。为讯连科技研发团队创始成员,慧景科技(thingnario)共同創始人,NVIDIA AI Lab計劃主持人;曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会,担任多家科技公司AI策略顾问。
智能应用 影音