NVIDIA宣布Cosmos世界基础模型及实体AI数据工具重大发布 智能应用 影音
Mircrochip Q1
Event

NVIDIA宣布Cosmos世界基础模型及实体AI数据工具重大发布

  • 陈俞萍台北

NVIDIA宣布Cosmos世界基础模型及实体AI数据工具重大发布。NVIDIA
NVIDIA宣布Cosmos世界基础模型及实体AI数据工具重大发布。NVIDIA

NVIDIA近日宣布推出全新的NVIDIA Cosmos世界基础模型 (WFM)的重大发布,为实体人工智能(AI)开发引入开放且完全可定制化的推理模型,并提供开发人员对世界生成前所未有的控制权。

NVIDIA还将推出两种NVIDIA Omniverse和Cosmos平台驱动的全新蓝图,为开发人员提供用于后期训练机器人和自驾车的大量可控制合成数据生成引擎。

1X、 Agility Robotics、Figure AI、Foretellix、Skild AI和Uber等产业领导者,均作为率先采用Cosmos的企业,为实体AI更快、大规模地生成更丰富的训练数据。

NVIDIA创始人暨CEO黄仁勳表示:「正如大型语言模型彻底颠覆了生成式与代理AI,Cosmos世界基础模型则是实体AI的重大进展。Cosmos为实体AI引入了一个开放且完全可定制化的推理模型,并为机器人技术与实体产业的阶跃发展开创机会。」

用于合成数据生成的Cosmos Transfer

Cosmos Transfer WFM撷取结构化影片输入,例如分割图、深度图、光学雷射扫描、姿态估计图和轨迹图,以生成可控制的逼真影片输出。

Cosmos Transfer可精简感知AI训练,将在Omniverse中建立的3D模拟或地面事实转换为逼真的影片,用于大规模、可控制的合成数据生成

Agility Robotics将是Cosmos Transfer和Omniverse的早期采用者,用于大规模合成数据生成,训练机器人模型

Agility Robotics技术长Pras Velagapudi表示:「Cosmos提供我们将逼真训练数据扩展至超出我们在现实世界中收集的数据范围的机会。我们很高兴看到可以利用这个平台释放新效能,同时充分利用我们已有的实际型模拟数据。」

用于自动驾驶汽车模拟的NVIDIA Omniverse蓝图利用Cosmos Transfer来扩大基于实体的传感器数据的变化。有了 此蓝图,Foretellix可针对各种驾驶数据集透过改变天气和光线等条件来增强行为场景。Parallel Domain也在利用此蓝图将类似的变化应用于传感器模拟。

用于合成操作动作生成的NVIDIA GR00T蓝图结合Omniverse和Cosmos Transfer以大规模生成各种数据集,并利用OpenUSD驱动的模拟技术,将数据收集与增强时间从数天缩短至数小时。

用于智能世界生成的Cosmos Predict
Cosmos Predict WFM于1月的CES展会发表, 可以透过文字、图像和影片等多模式输入来生成虚拟世界状态。全新的Cosmos Predict模型将实现多影格生成,在给定开始和结束输入影像时预测中间动作或运动轨迹。这些模型专为后期训练而打造,可利用NVIDIA开放提供的实体AI数据集进行自订。

利用NVIDIA Grace Blackwell NVL72系统的推论运算能力及其大型NVIDIA NVLink网域,开发人员可实现实时世界生成。

1X正在利用Cosmos Predict和Cosmos Transfer来训练其全新的人形机器人NEO Gamma。机器人大脑开发商Skild AI正在利用Cosmos Transfer增强机器人的合成数据集。此外,Nexar和Oxa则正在利用Cosmos Predict推进自动驾驶系统。

用于实体AI的多模态推理

Cosmos Reason是一款开放且完全可自订的WFM,具备时空感知技术,利用思维链推理来理解影片数据,并以自然语言预测人类踏入斑马线或盒子从架子上掉落等互动结果。

开发人员可利用Cosmos Reason来改善实体AI数据注释和管理、强化现有的世界基础模型或建立新的视觉语言动作模型。他们还可以对AI进行后期训练,建立高端规划器,让实体AI了解如何完成任务。

加速实体AI的数据管理与后期训练

根据下游任务,开发人员可在NVIDIA DGX Cloud上使用原生PyTorch指令码或NVIDIA NeMo架构来对Cosmos WFM进行后期训练。

Cosmos开发人员还可以在DGX Cloud上使用NVIDIA NeMo Curator,加速数据处理和管理。Linker Vision和Milestone Systems正利用它来管理大量影片数据,训练建置于NVIDIA AI Blueprint的视觉代理的大型视觉语言模型,用于影片查找和摘要Virtual Incision正在探索将其部署于未来的手术机器人,而Uber和Waabi则正在推进自驾车的开发。

推动负责任的AI与内容透明度

根据NVIDIA的可靠AI原则,NVIDIA在所有Cosmos WFM上实施开放式护栏。此外,NVIDIA正与Google DeepMind合作,将SynthID整合至浮水印,并协助识别官网上展示的Cosmos WFM NVIDIA NIM微服务的AI生成输出。

Cosmos WFMs现已在NVIDIA API目录中提供预览,以及列于Google Cloud上的Vertex AI Model Garden。 Cosmos Predict和Cosmos Transfer现已在Hugging FaceGitHub上开放提供。 Cosmos Reason已开放抢先体验。

透过观看NVIDIA GTC主题演讲,以及报名参加NVIDIA和业界领袖在展会上的Cosmos演讲和训练,包括NVIDIA生成式AI研究副总裁刘洺堉的「Cosmos世界基础模型的介绍」。

关键字