机器人训练數據从哪里来？

徐宏民

2026-04-24

太平洋两岸的机器人新创与顶尖实验室，这一年来在一件事上达成共识：模型架构不再是唯一焦点，數據成为竞争的核心资源。不论技术路线如何演变，多数团队最终都会遇到同一个瓶颈——机器人移動「训练數據」的规模严重不足。

大语言模型的成功，建立在数十萬億个从網絡爬取的文字數據上；机器人需要的是机器人在真实物理环境中的动作序列、傳感器数值与任务标注。研究估算，目前主流机器人训练數據集的规模，比语言模型少了3个数量级以上。

2025年底，Physical Intelligence的π₀在少量示范后的自主执行中，于数分钟内完成叠衣任务；NVIDIA 的GR00T N1.6在同一个模型框架下可以同时操控7种不同机械手臂。这类进展的背后，架构设计看似重要，但數據规模才是关键。數據缺口，是机器人基础模型能否真正大规模实际部署的天花板。

面对这个落差，学术与产业界正从4个方向同时突破數據障碍：遥控示范、模拟器、網絡影片、穿戴设备。4条路线各具特色，可以互相配搭。

遥控示范（teleoperation）是目前高品质數據的主要来源。操作人员透过 VR 头盔或主从控制臂等線上界面操控机器人，系统同步记录动作序列与傳感器数据：數據真实，实体互动完整，动作标注精确。

openVLA的训练基础就是采用97万笔这类示范數據。近来也出现更轻量的工具，史丹福大学（Stanford）团队开发的 UMI（Universal Manipulation Interface）以手持夹爪装置，内建鱼眼镜头与惯性傳感器，操作人员在任意场景示范即可录制，大幅降低收集门槛。问题在于规模：每笔數據仍需人力投入，以中国各地的机器人训练中心为例，工作人员每天重复数百次开关微波炉、叠衣服，扩张速度终究受制于人力极限。

模拟器（simulator）提供的是另一个极端：近乎无限的數據量、几乎零边际成本、可精确控制场景参数。从商业平臺到MuJoCo、Genesis等开源工具，各样投入都在朝高逼真物理模拟推进。但核心难题不在画面是否逼真，而在接触力学（contact dynamics）：两物体碰触瞬间的摩擦力、形变与反作用力，即使模型极度精细，转移到真实机器人后仍常出现误差。布料、电线、食材等柔性物体尤为困难，传统刚体模拟难以精确处理。

面对sim-to-real gap，目前尝试2条路线：一是「域随机化」（domain randomization），刻意扰动光影、质感、摩擦系数，让模型学会不依赖特定环境特征；二是 NVIDIA 的Cosmos世界基础模型，以大量真实影像学习物理直觉，让神经網絡本身充当更逼真的模拟器。2条路都有进展，但让模拟器成为可靠的免费數據工厂，仍有一段距离。

網絡影片是规模最大、却最难直接使用的来源。YouTube上海量人类执行日常任务的影像，蕴含丰富的物件互动与动作语义，但影片里看不到力道、关节角度与夹爪状态，也没有任何动作标注，且人手与机器人末端执行器存在根本的形态差异（embodiment gap）。Meta的Ego4D等大规模第一视角人类行为數據集，是目前这个方向最具代表性的尝试。

跨具身学习（cross-embodiment learning）是跨越这道障碍的主要技术路线：透过汇集来自不同机器人平臺与人类示范的數據联合训练，让模型学到不依赖特定硬件形态的通用动作表示；我们近期的研究也证实，这是一个有效的策略。具身智能（Physical Intelligence）最新研究进一步显示：当跨具身预训练规模足够大，「人类影片迁移到机器人动作」的能力会自然出现，不需要复杂的动作转换层，意味著網絡影片的可用性比原本预期的更高。

穿戴设备（wearable devices）是最近快速发展的路线。轻量外骨骼或动作捕捉装置让操作人员在自然场景中活动，同步记录全身动作与环境互动，再转换为机器人可学习的格式。NuExo、HumanoidExo已能在户外场景收集全上肢动作數據，场景多样，數據自然，操作者的活动自由度也远高于固定工作站的遥控示范。难点在于「动作转换」（motion retargeting）：人体关节结构与机器人机械结构不完全对应，需要精密几何映射，且转换品质因平臺而异。

综合目前领先团队的做法，目前正在收敛出一个「两段式」數據架构，逻辑上与LLM的预训练／微调高度相似。第一阶段是大规模、多元的预训练，以網絡影片、合成模拟數據为基础，让模型建立视觉语义与通用动作直觉；第二阶段是少量、高品质的微调，以遥控示范或穿戴设备录下的真实机器人數據，将能力实际部署到特定任务与平臺。

各家在这个數據策略的分歧，集中在对模拟器的信任程度。NVIDIA的GR00T N1是「重模拟」策略的代表：训练數據呈3层金字塔，底层是網絡影片与人类动作影像，中层是Isaac平臺与Cosmos模型生成的合成轨迹，顶层才是真实遥控示范數據。NVIDIA曾在11小时内生成78万条合成轨迹，相当于6,500小时人工示范；加入合成數據后，模型表现比纯真实數據提升40%，是其力推模拟路线的具体依据。

相对地，许多新创——尤其是中国团队——对sim-to-real持保留态度。在精细操作上，模拟器的接触力学与真实世界仍有落差，与其花工程资源桥接误差，不如直接扩大真实數據的收集规模。具身智能的 π₀以横跨7种机器人平臺、68项任务、超过1万小时的遥控示范數據进行跨具身预训练，针对新任务微调仅需1至20小时。Generalist AI的GEN-0则更为彻底，完全不用模拟，以27万小时的纯真机互动數據训练，每周持续新增逾万小时。

这几条路线背后有一个共同的结构：遥控示范与穿戴设备录下的數據，目前主要扮演「微调材料」而非「训练主体」的角色，提供的是最后那10%让模型真正能用的能力，而非语义理解的来源。这个分工，正在促使各条路线重新定位自己的核心竞争力：

模拟器拼的是物理引擎真实度，網絡影片拼的是动作标注技术，遥控示范拼的是针对特定任务的示范品质。

投资机构（如Merrill Lynch）预估2025年全球人形机器人出货量约1.8万臺，是2024年的7倍；协作型机械手臂、自主移动机器人（AMR）等更成熟的平臺部署规模更大，也都在加速整合新一代AI模型。电动车厂与第三方物流业者已在工厂与物流中心商业运转。數據积累与部署量之间的正向循环已开始运作：部署量愈大，场域數據愈多；數據愈多，模型泛化愈强；模型愈强，部署门槛愈低。真正的竞争优势，在于谁能以最符合成本的方式取得有效數據、在实际场域中持续迭代，进而建立起真正的數據护城河（moat）。

机器人训练數據从哪里来？

徐宏民台灣大學信息工程学系教授

作者其他文章

推荐活动

邦博士快讯

让AI代理为企业全面赋能 - 规划财务转型之路

机器人训练數據从哪里来？

徐宏民 台灣大學信息工程学系教授

作者其他文章

推荐活动

邦博士快讯

让AI代理为企业全面赋能 - 规划财务转型之路

徐宏民台灣大學信息工程学系教授