World Model：分歧的研究世界

徐宏民

2026-05-20

AI语音摘要

00:49

过去两年，「世界模型」（World Model）成为AI业界引用频繁、定义却最分歧的词汇。

每个正在做生成式AI或机器人技术的团队都会自称「在做world model」，但仔细看，每家口中的定义并不相同。这个概念本身在认知科学、控制理论与1990年代的强化学习文献中都有过讨论；2018年David Ha与Jürgen Schmidhuber发表的〈World Models〉论文，用神经網絡学习赛车环境的潜在动态，agent完全在内部模型中训练后再转到真实环境执行，这个概念锚定在现代神经網絡的脉络下，奠定「压缩环境动态、用以预测与规划」这个基本定义，也成为后续讨论的共同起点。

从这个原始定义延伸，业界各阵营各有解读。Yann LeCun主张的JEPA（Joint Embedding Predictive Architecture）在抽象表示层预测世界下一步，作为agent规划的基础；李飞飞从「空间智能」（spatial intelligence）切入，把世界模型视为可生成、可互动的3D表示，这也是她创立WorldLabs的核心命题；NVIDIA的Cosmos则把世界模型定位为实体AI（Physical AI）的生成式模拟器，依文字、影像或动作条件预测下一秒画面；Google DeepMind的Genie系列则更接近「可互动生成环境」的路线。

同一个词，4种版本，分别对应预测、生成、模拟、互动4种不同的工程目标。

与世界模型容易被混为一谈的，还有數字分身（Digital Twin）与模拟器（Simulator）。

數字分身强调「特定实体的數字映射」，重点在于与真实世界實時同步，背后是工程模型加上IoT數據流。模拟器（如Isaac Sim、MuJoCo、Gazebo）则是基于物理方程序建构的程序化环境，优势是可控、可重现，缺点是建模成本高，且在接触力学与柔性物体上仍存在sim-to-real落差。世界模型则是用神经網絡从數據中学出来的「环境动态函数」，不依赖明确规则，可以生成从未真实出现的场景；本质上是从數據学出来的，不是手工建构的。三者并非互斥，近年逐渐结合：用模拟器产生數據训练世界模型，再以世界模型补足模拟器涵盖不到的长尾场景。

厘清这些定义之后，真正值得ICT产业注意的，是世界模型为什么会成为具身智能（embodied AI）能否规模化的关键元件。机器人在实体世界尝试动作，每一次都伴随不可逆的成本。机器人用力一压，可能直接打破物料；自驾车试一个激进变道，可能撞到行人。这与语言模型的处境截然不同——语言模型的错误输出最多被使用者打回，没有实体损害。具身智能的学习与决策循環，因此必须有一层「先在内部模拟一遍」的阶段，而那层内部模拟，世界模型提供可能的工具。

举例来说，机器人的复杂推理可以尝试这样运作：每一步推理不只是用语言判断「下一个动作该做什么」，而是先预测「做完这个动作之后，世界会变成什么状态」，再把这个预测送入世界模型验证实体上是否合理；通过验证的动作，才会送到真实世界执行。这把推理链从「在语言空间中规划」拉回到「在实体空间中验证」，正是具身智能与大型语言模型在推理结构上的主要分野。

少了这层验证，机器人就难以走出受控场域；补上之后，泛化与规模化才有空间。

这个方向在近期研究中陆续出现：部分VLA研究（如CoT-VLA）开始把世界模型与具身推理结合，在执移動作前先在内部模型中生成子目标影像或合成成功轨迹，再回头修正动作；NVIDIA的Cosmos Reason也把世界模型的预测输出接到推理层。这些做法都还在实验阶段，但愈来愈多研究倾向认为：可靠的世界模型，可能是让具身智能走出受控场域的关键元件之一。

这个方向的另一面，是运算需求的大幅跃升。大型语言模型处理的是离散token，每秒几十到上百个就算流畅；世界模型处理的是高分辨率、长时序、多模态的影像或3D表示，每一秒影片对应的信息量大致相当于数十万至上百万个token。一旦世界模型真的在具身智能上成形，这波运算需求会比目前以token为主的大型语言模型高出一个量级；不只是token变多的问题，而是运算的维度从「文字」扩展到「世界」。

运算之外还有2道更基础的瓶颈。一是3D空间推理仍有明显落差，连物件相对位置、可达性、操作后果这类实体任务中视为基本的能力，目前都还不够稳定。二是实体一致性与互动：影片扩散模型已能生成相当逼真的画面，但物件穿模、重力违反、接触不合理这类错误仍常见——世界模型从數據学动态，没有明确的物理约束，画面好看不等于符合物理规律；要在毫秒等级对输入动作做出实体一致的回应，目前还没有方法能在机器人实际所需的延迟下稳定运作。

AI产业现在缺的不是更多世界模型，而是第一个真正需要它的杀手级应用。比较值得追踪的不是又有哪家发表新版世界模型，而是3D推理与低延迟互动这两层基础能力会在哪一个垂直情境先站稳；那个情境多半也会成为第一个真正需要世界模型的应用。

过去几十年的科技发展也显示，这类路线分歧本就是探索解方的过程；一旦某条路线走出明确的产业效益，研究方向往往会再次收敛。

World Model：分歧的研究世界

徐宏民台灣大學信息工程学系教授

作者其他文章

推荐活动

邦博士快讯

Auden TechDay 2026 「星地融合 ‧ 智联万物 ‧ 共创无限未来」

World Model：分歧的研究世界

徐宏民 台灣大學信息工程学系教授

作者其他文章

推荐活动

邦博士快讯

Auden TechDay 2026 「星地融合 ‧ 智联万物 ‧ 共创无限未来」

徐宏民台灣大學信息工程学系教授