最新的NVIDIA绘图研究推动生成式AI更前瞻的发展 智能应用 影音
工研院
ADI

最新的NVIDIA绘图研究推动生成式AI更前瞻的发展

  • 林岫台北

NVIDIA推出一波前瞻的人工智能研究,使开发人员和艺术家能够将他们的想法变为真实。NVIDIA
NVIDIA推出一波前瞻的人工智能研究,使开发人员和艺术家能够将他们的想法变为真实。NVIDIA

透过与美国、欧洲和以色列十几所大学合作的20篇推动生成式AI和神经图形的NVIDIA Research研究论文将于2023年8月6~10日在美国洛杉矶举行的电脑绘图专业盛会SIGGRAPH 2023上发表。这些论文包括将文字转换为个性化图像的生成式人工智能模型、将静止图像转换为3D物件的逆向渲染工具、使用AI以惊人的真实感模拟复杂3D元素的神经物理模型、 和可解锁生成实时、AI驱动的视觉细节的神经渲染模型。NVIDIA研究人员的创新定期在GitHub上与开发人员分享,并整合到产品中,包括用于构建和操作元宇宙应用程序的NVIDIA Omniverse平台和发表用于视觉设计的定制生成式AI模型代工厂NVIDIA Picasso。

NVIDIA多年的绘图形研究帮助将电影风格的渲染带入游戏,例如所发布的《电驭叛客2077光线追踪:Overdrive模式》,这是世界上第一款路径追踪的AAA游戏。2023年在SIGGRAPH上展示的研究进展将帮助开发人员和企业快速生成合成数据,以填充用于机器人和自动驾驶车辆培训的虚拟世界。它们还可以让艺术、建筑、平面设计、游戏开发和电影创作人更快地制作出用于分镜、预视和甚至影片制作的高品质视觉效果。

高度紧凑模型Perfusion可采用少量概念图像,允许用户将多个个性化元素组合成一个人工智能生成的视觉效果。NVIDIA

高度紧凑模型Perfusion可采用少量概念图像,允许用户将多个个性化元素组合成一个人工智能生成的视觉效果。NVIDIA

神经压缩纹理(右)在不占用额外GPU存储器的情况下,提供高达16倍的纹理细节。NVIDIA

神经压缩纹理(右)在不占用额外GPU存储器的情况下,提供高达16倍的纹理细节。NVIDIA

此神经网络模型学习光如何从真实的多层材料反射。NVIDIA

此神经网络模型学习光如何从真实的多层材料反射。NVIDIA

具有个人风格的AI:定制的文字到图像模型

将文字转换为图像的生成式AI模型是创造概念艺术和对于电影、游戏和3D虚拟世界制作分镜表的强大工具。文字到图像的AI工具可以将像是「儿童玩具」之类的提示变成几乎无限的视觉效果,创作者可以从中获得灵感—产生绒毛动物玩具、积木或拼图的图像。然而,艺术家可能有一个特定的主题。 例如,某玩具品牌创意总监可能正在围绕一只新款泰迪熊策划一项广告活动,并希望在不同情况下形象化该玩具,例如泰迪熊茶会。

为了在生成式AI模型的输出中实现这种级别的特异性,特拉维夫大学和NVIDIA的研究人员撰写了两篇SIGGRAPH论文,让使用者能够提供让模型可以快速学习的图像范例。一篇论文描述了一种需要单一个示例图像来自定义其输出技术,在单个NVIDIA A100 Tensor Core GPU上将个性化过程从几分钟加速到大约11秒,比以前的个性化方法快60倍以上。

第二篇论文介绍了一种名为Perfusion的高度紧凑模型,它采用少量概念图像,允许用户将多个个性化元素(例如特定的泰迪熊和茶壶)组合成一个人工智能生成的视觉效果

提供3D世界内的服务:逆向渲染和角色创建的进展

一旦创作者构思出虚拟世界的概念艺术,下一步就是渲染环境并使用3D物体和角色进行填充。NVIDIA Research正在发明人工智能技术,透过自动将2D图像和影像转换为3D来加速这个耗时的过程,让创作者可以将其导入绘图应用程序进一步编辑。

与加州大学圣地亚哥分校的研究人员共同创作的第三篇论文,讨论了可以基于单张2D肖像进而生成和渲染出逼真的3D头肩模型的技术,这是一个重大突破,可以让使用AI进行3D头像创建和3D视讯会议变得更加容易。 该方法在消费者电脑桌面上实时运行,并且可以仅使用传统的网络摄影机或智能手机摄影功能就生成逼真的或风格化的3D遥现(Telepresence)线上临场。

第四个专案是与史丹佛大学合作,为3D角色带来逼真的动作。研究人员建立了一个AI系统,该系统能够从真正的网球比赛的2D影片纪录中学习一系列网球技巧,并将动作应用于3D角色。模拟的网球选手可以精确地将球打到虚拟球场上的目标位置,甚至可以与其他角色进行长时间的回合比赛。除了网球的测试案例外,这篇SIGGRAPH文章还探讨了如何在不使用昂贵的运动捕捉数据的情况下,创造出具有多种技能、并能进行真实运动的3D角色。

不失一根头发:神经物理学实现逼真的模拟

当3D角色生成后,艺术家可以添加像是头发这样逼真的细节,这对动画师来说是一个复杂且需要大量运算的挑战。人类平均有100,000根头发,每一根都会随着个人动作和周围环境而动态变化。传统上,创作者使用物理公式来计算头发的运动,根据可用资源来简化或近似头发的运动。这就是为什麽大制作电影中的虚拟角色拥有比实时游戏中的角色更仔细的头发细节。

第五篇论文展示了一种使用神经物理学的方法,可以高分辨率模拟数万根头发。神经物理学是一种人工智能技术,它教导神经网络预测物体在现实世界中的运动方式。该团队为实现完整规模头发的准确模拟提出了一种新颖的方法,专门针对现代GPU进行优化。与最先进基于CPU的解算器相比,它提供了显着的效能提升,将模拟时间从多天减少到仅需几小时,同时提高了实时的头发模拟品质。这种技术终于实现了物理精确与互动的头发造型。

神经渲染为实时绘图带来电影品质的细节

当一个虚拟环境被填充了动画3D物体和角色后,实时渲染会模拟光线通过虚拟场景反射的物理过程。NVIDIA最近的研究显示,纹理、材料和体积的AI模型可以在实时渲染中提供电影等级的逼真视觉效果,可用于游戏和数码孪生。NVIDIA二十年前就发明了可程序化的着色技术,使开发人员可以自定义绘图管道。在这些最新的神经渲染发明中,研究人员透过运行在NVIDIA实时绘图管道内的AI模型来扩展可程序化着色代码。

在第六篇SIGGRAPH论文中,NVIDIA将呈现神经纹理压缩,在不占用额外GPU存储器的情况下,提供高达16倍的纹理细节。神经纹理压缩可以大幅提升3D场景的真实感,如下图所示,这说明神经压缩纹理(右)如何捕捉比先前格式更清晰的细节,在先前格式中文本保持模糊(居中)。

第七篇论文介绍的是NeuralVDB,这是一种AI驱动的数据压缩技术,可使表示烟、火、云和水等体积数据所需的存储器减少100倍。NVIDIA还发布了关于更多神经材料细节的研究,这些细节在最新的NVIDIA GTC主题演讲中已展示。该研究描述了一个AI系统,它学习光如何从真实的多层材料反射,将这些资产的复杂性降低到实时运行的小型神经网络,使阴影处理速度提高10倍从这个神经网络渲染的茶壶中可以看出其逼真度,它准确地呈现了陶瓷、不完美的清釉、指纹、污迹甚至灰尘。


关键字