Reserch
订报优惠

智能生成模型的产业机会

  • 徐宏民

智能技术长久以来大多专注在分析(如辨识、分类、侦测等),但快速进展的深度学习技术,能因著使用情境而产生适切的内容,也在各方面产生令人惊艳的结果。如显示器、摄影的影像质量强化、自动内容制作、照片视讯编修、AR/VR内容生成、对话机器人等。这些生成内容横跨文字、影像(视讯)、音乐、语音,对于娱乐、安全、自动服务等产业,已经产生极大的变革,也预计会大大影响电子信息产品的技术走向。

以影像为例,传统影像生成的应用之一在于超高分辨率成像(super-resolution),将低分辨率的影像长宽各放大为数倍,而增加的画素内容大都是利用内差法的方式填补。在文字对话上则是针对某些关键字,用简单统计模型或是规则来产生文字内容。因为过于简化,不管对于影像或是文字,在内容观看上还是相当不自然。主要原因有2个:无法真正了解内容为何以及生成模型过于简化。

深度生成模型的进展就逐渐解决了这两个关键问题。不管生成的内容为何,生成模型有3个主要模块:编码器(encoder)、解码器(decoder)、以及生成内容的评量机制。编码器大多类似于深度学习辨识用的网络,主要将内容层层分析之后,产生讯息量较高阶的多个(高纬度)特征值;这些可能代表了影像、视讯、或是对话中的语意细节。而解码器则是本于内容的深度了解,基于这些特征值,在深度网络中各层渐进的还原(拼凑出)该有的内容。

生成内容评量则是在训练生成模型时,控制了内容生成的质量。一般以各种成本函数在模型训练时评量生成网络(特别是解码器)的生成内容,用以修正大量的网络参赛;常用的大多是以训练资料中的高质量影像或是文字来衡量质量差异。其中最有趣的是这几年兴起的生成对抗网络(generative adversarial network;GAN),刻意设计了一个辨识器(discriminator)来与生成网络对抗,前者努力区分真实与生成(造假)的内容,而生成网络则努力合成难以区分的内容,以对抗的方式彼此增强。

基于这些进展,我们看到了大量高质量,几可乱真的生成内容,这也就是为何DARPA察觉这样的威胁,进而将自动分辨虚实技术,列为美国未来智能技术的发展重点。最近,我们也研究了超低分辨率照片的人脸辨识、可以使用在电子商务上的虚拟试穿等新颖生成技术,也惊讶这些技术的突破,以及在各个产业可能带来的影响。

智能生成技术已经在许多软件应用服务上落地为产品,我相信这些技术将会以「增益」的方式进入数码内容录制(生成)及观看使用的电子产品中,其可能影响的层面广与深,绝对是不容忽视的技术进展。

徐宏民(Winston Hsu)现任台大资工系教授及NVIDIA AI Lab计画主持人。哥伦比亚大学电机博士,专精于机器学习、大规模影像视讯查找与辨识、前瞻技术商业模式等领域。为讯连科技研发团队创始成员,曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会;十余年产学合作及新创经验,近年与国内外企业合作,将深度学习技术落实到产品,并协助成立深度学习(人工智能)团队。曾获ACM MM 2014 Grand Challenge Multimodal Award、杰出信息人才奖、吴大猷先生纪念奖等国内外大奖。