Sim-to-Real:虚拟世界的局限

徐宏民
2026-05-06
AI语音摘要
00:44

上一篇谈到机器人训练數據的4种来源:遥控示范、模拟器、影片、穿戴设备。其中模拟器看似最方便——數據生成边际成本接近零、场景参数(天候、情境等)可以随意调整。从MuJoCo、IsaacSim到Genesis,业界持续推进高逼真度物理引擎,NVIDIA也不断强调世界模型Cosmos在机器人训练上的优势。

模拟器值得投入的理由不少。强化学习要靠大量试误,在实体机器人上几乎不可行;VLA基础模型在预训练阶段也需要大量多样场景,这两件事前几篇已谈过。上一篇也介绍过把模拟当成數據工厂、合成大量轨迹的「重模拟」路线。模拟器更是加速应用开发的标准工具:给定机器人结构、夹爪规格、场域布局,工程师可以先在虚拟环境中迭代演算法、验证任务规划,不必等实机。这件事在ADAS与自驾领域已是标准做法,移动机器人与工厂自动化也在跟进。

不过模拟器训练出的策略搬到真实机器人时,常常表现不如预期;现象一般称为sim-to-realgap。接触力学是第一个盲点,上一篇已点出布料、电线、食材这类柔性物体是目前物理引擎的共同难题,但另有几个较少被提及的盲点。

第一个是力回馈与精准度。夹爪抓起一个纸杯不压扁、拧开瓶盖的扭矩判断、插针孔的次毫米对位,这些动作在真实世界要靠触觉、扭力傳感与视觉循環一起完成;模拟器里的傳感器多半是理想模型,与真实傳感器的杂讯分布并不一致。消费端夹爪看似容忍度大,但一进到电子业的组装场域、医疗器材或食品加工,容差瞬间收敛到数十微米到几毫牛顿的区间;即使模拟精度与真实系统相当,残余的sim-to-real落差仍会直接反映在成功率。

第二个是驱动端与系统端的落差。模拟器多半假设电机瞬时响应、通讯完美、状态完全可观测;真实系统却有电力电子的延迟、齿轮反向间隙、电池电压波动造成的扭矩不稳,再叠上封包遗失、时脉同步误差、以及傳感受限下的决策缺口。更关键的是,这些差距会随时间漂移:机构磨损、电池老化、现场網絡变动,模拟器即使再精细,也跟不上现场长期运转的累积。

第三个是物件层级的风险。前一篇谈VLA安全时已详述情境危险性:同样一个抓取动作,物件是刀还是汤匙、是热饮还是冷饮,风险天差地别;这层语义层的风险,虚拟环境在几何与动力学层面上不会主动标注,必须靠真实场域的數據补齐。

还有一层更难处理的问题——物件状态的变动,而这些变动往往不在物理引擎的描述语言里。微波炉是不是正在被占用、抹布是不是脏的、平底锅刚用过还没洗、油是不是已经酸败。自然语言指令通常不会把这些条件写明,但实际执行时缺一不可。我们近期的研究就把这类「动态可操作性」(dynamic affordance)纳入评估,要求代理人在动作前先判断物件当下是否可用,而非当成固定几何体;测试结果显示,这个额外的判断确实能改善代理人在新场景下的表现。

这类问题暴露一个本质限制:物理引擎模拟的是「物件怎么动」,不是「物件现在可不可以用」。前者是物理,后者是常识。虚拟世界可以把桌面渲染到以假乱真,但「桌面脏污还是刚被擦拭过」这件事,模拟器不会主动生成,也不容易标注。真实场域的不确定性,很大比例是这类状态变动累积而来。

传统机器学习对训练數據的基本要求,在VLM/LLM新典范之下并没有放宽,大致有3个面向。

第一是视觉与场景的多样性:模型要在不同光源、视角、杂物分布、场景配置下都能稳定运作,视觉长尾覆盖不足,泛化能力就有限。第二是失败模式的多样性,这和视觉多样性是两件事;机器人真正要学的不是「做对一次」,而是在各种失败边缘能不能察觉并调整,这类分布只能刻意取得,不会自然出现。第三是领域贴合度:要让模型学会某个场域的操作边界,數據必须来自该场域,一个合格的物流仓、医院药局、餐饮厨房,都有自己独特的动作分布与例外情境。

回到模拟器,这三件事它能补的程度不一。视觉多样性已有相当进展,特别是场景合成与domain randomization,但接触密集场景仍有差距。失败模式合成则是模拟器较具独特性的角色:不安全操作、碰撞、摔落、错抓这类情境,在真实场景上难以大量反复上演,模拟器可以放心重现危险操作、组合极端条件,是「安全地大量失败」的少数可行路径之一。至于领域贴合度,模拟器只能部分逼近,难以取代真实场域數據;这也是其他训练數據必要的原因。

机器人产业真正需要的,或许不是更逼真的模拟器,而是让部署现场本身成为持续训练的數據来源。实体机器在真实场域运作时,能察觉自身错误、退回安全状态,并把偏差信號回馈到模型迭代。

这个思路在數字世界刚被走通。近期的代理型AI(Agentic AI)推理并非总是准确,但搭配验证(verification)、错误侦测与再修正机制,系统在迭代中逐步收敛到可用水准。实体AI(Physical AI)有机会走上同一条路:用模拟器建立预训练的底层,用真实场域的错误信號回馈微调,把部署规模转化为模型进化的燃料。这里的「验证」不只是軟件验证,还包括独立的安全监控层;前一篇谈VLA安全时提到的执行前弃权、执行中监控,正是这个回路的实体版本。模拟器仍是地基,但模型真正变强的地方,会在实体部署之上。

机器人部署场域的营运數據,未来几年会逐步变成比硬件规格更关键的资产;谁能搜集、清洗、回馈这些數據进模型,谁就能把「单次出货」变成「持续累积的优势」。

Sim-to-Real的问题,未必能靠「把模拟做得无比接近真实」彻底解决,这条路的边际报酬看来正在递减。比较务实的方向,或许是接受虚拟与现实之间确实存在的差异,透过场域數據微调、验证与修正迭代逐步提高成功率。如同代理型AI在數字世界走过的路,机器人也可能借此在实体世界站稳脚步。

现任台灣大學信息工程学系教授,曾任富智捷(MobileDrive)技术长暨副总经理,推动ADAS及智能座舱系统产品进入全球车用市场。纽约哥伦比亚大学电机博士,专精于机器学习、电脑视觉、自驾车、机器人等领域。为讯连科技研发团队创始成员,慧景科技(thingnario)共同創始人,NVIDIA AI Lab計劃主持人;曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会,担任多家科技公司AI策略顾问。
智能应用 影音