Sim-to-Real：虚拟世界的局限

徐宏民

2026-05-06

AI语音摘要

00:44

上一篇谈到机器人训练數據的4种来源：遥控示范、模拟器、影片、穿戴设备。其中模拟器看似最方便——數據生成边际成本接近零、场景参数（天候、情境等）可以随意调整。从MuJoCo、IsaacSim到Genesis，业界持续推进高逼真度物理引擎，NVIDIA也不断强调世界模型Cosmos在机器人训练上的优势。

模拟器值得投入的理由不少。强化学习要靠大量试误，在实体机器人上几乎不可行；VLA基础模型在预训练阶段也需要大量多样场景，这两件事前几篇已谈过。上一篇也介绍过把模拟当成數據工厂、合成大量轨迹的「重模拟」路线。模拟器更是加速应用开发的标准工具：给定机器人结构、夹爪规格、场域布局，工程师可以先在虚拟环境中迭代演算法、验证任务规划，不必等实机。这件事在ADAS与自驾领域已是标准做法，移动机器人与工厂自动化也在跟进。

不过模拟器训练出的策略搬到真实机器人时，常常表现不如预期；现象一般称为sim-to-realgap。接触力学是第一个盲点，上一篇已点出布料、电线、食材这类柔性物体是目前物理引擎的共同难题，但另有几个较少被提及的盲点。

第一个是力回馈与精准度。夹爪抓起一个纸杯不压扁、拧开瓶盖的扭矩判断、插针孔的次毫米对位，这些动作在真实世界要靠触觉、扭力傳感与视觉循環一起完成；模拟器里的傳感器多半是理想模型，与真实傳感器的杂讯分布并不一致。消费端夹爪看似容忍度大，但一进到电子业的组装场域、医疗器材或食品加工，容差瞬间收敛到数十微米到几毫牛顿的区间；即使模拟精度与真实系统相当，残余的sim-to-real落差仍会直接反映在成功率。

第二个是驱动端与系统端的落差。模拟器多半假设电机瞬时响应、通讯完美、状态完全可观测；真实系统却有电力电子的延迟、齿轮反向间隙、电池电压波动造成的扭矩不稳，再叠上封包遗失、时脉同步误差、以及傳感受限下的决策缺口。更关键的是，这些差距会随时间漂移：机构磨损、电池老化、现场網絡变动，模拟器即使再精细，也跟不上现场长期运转的累积。

第三个是物件层级的风险。前一篇谈VLA安全时已详述情境危险性：同样一个抓取动作，物件是刀还是汤匙、是热饮还是冷饮，风险天差地别；这层语义层的风险，虚拟环境在几何与动力学层面上不会主动标注，必须靠真实场域的數據补齐。

还有一层更难处理的问题——物件状态的变动，而这些变动往往不在物理引擎的描述语言里。微波炉是不是正在被占用、抹布是不是脏的、平底锅刚用过还没洗、油是不是已经酸败。自然语言指令通常不会把这些条件写明，但实际执行时缺一不可。我们近期的研究就把这类「动态可操作性」（dynamic affordance）纳入评估，要求代理人在动作前先判断物件当下是否可用，而非当成固定几何体；测试结果显示，这个额外的判断确实能改善代理人在新场景下的表现。

这类问题暴露一个本质限制：物理引擎模拟的是「物件怎么动」，不是「物件现在可不可以用」。前者是物理，后者是常识。虚拟世界可以把桌面渲染到以假乱真，但「桌面脏污还是刚被擦拭过」这件事，模拟器不会主动生成，也不容易标注。真实场域的不确定性，很大比例是这类状态变动累积而来。

传统机器学习对训练數據的基本要求，在VLM／LLM新典范之下并没有放宽，大致有3个面向。

第一是视觉与场景的多样性：模型要在不同光源、视角、杂物分布、场景配置下都能稳定运作，视觉长尾覆盖不足，泛化能力就有限。第二是失败模式的多样性，这和视觉多样性是两件事；机器人真正要学的不是「做对一次」，而是在各种失败边缘能不能察觉并调整，这类分布只能刻意取得，不会自然出现。第三是领域贴合度：要让模型学会某个场域的操作边界，數據必须来自该场域，一个合格的物流仓、医院药局、餐饮厨房，都有自己独特的动作分布与例外情境。

回到模拟器，这三件事它能补的程度不一。视觉多样性已有相当进展，特别是场景合成与domain randomization，但接触密集场景仍有差距。失败模式合成则是模拟器较具独特性的角色：不安全操作、碰撞、摔落、错抓这类情境，在真实场景上难以大量反复上演，模拟器可以放心重现危险操作、组合极端条件，是「安全地大量失败」的少数可行路径之一。至于领域贴合度，模拟器只能部分逼近，难以取代真实场域數據；这也是其他训练數據必要的原因。

机器人产业真正需要的，或许不是更逼真的模拟器，而是让部署现场本身成为持续训练的數據来源。实体机器在真实场域运作时，能察觉自身错误、退回安全状态，并把偏差信號回馈到模型迭代。

这个思路在數字世界刚被走通。近期的代理型AI（Agentic AI）推理并非总是准确，但搭配验证（verification）、错误侦测与再修正机制，系统在迭代中逐步收敛到可用水准。实体AI（Physical AI）有机会走上同一条路：用模拟器建立预训练的底层，用真实场域的错误信號回馈微调，把部署规模转化为模型进化的燃料。这里的「验证」不只是軟件验证，还包括独立的安全监控层；前一篇谈VLA安全时提到的执行前弃权、执行中监控，正是这个回路的实体版本。模拟器仍是地基，但模型真正变强的地方，会在实体部署之上。

机器人部署场域的营运數據，未来几年会逐步变成比硬件规格更关键的资产；谁能搜集、清洗、回馈这些數據进模型，谁就能把「单次出货」变成「持续累积的优势」。

Sim-to-Real的问题，未必能靠「把模拟做得无比接近真实」彻底解决，这条路的边际报酬看来正在递减。比较务实的方向，或许是接受虚拟与现实之间确实存在的差异，透过场域數據微调、验证与修正迭代逐步提高成功率。如同代理型AI在數字世界走过的路，机器人也可能借此在实体世界站稳脚步。

Sim-to-Real：虚拟世界的局限

徐宏民台灣大學信息工程学系教授

作者其他文章

推荐活动

邦博士快讯

Auden TechDay 2026 「星地融合 ‧ 智联万物 ‧ 共创无限未来」

Sim-to-Real：虚拟世界的局限

徐宏民 台灣大學信息工程学系教授

作者其他文章

推荐活动

邦博士快讯

Auden TechDay 2026 「星地融合 ‧ 智联万物 ‧ 共创无限未来」

徐宏民台灣大學信息工程学系教授