智能应用 影音
MongoDB
member

智能生成模型的产业机会

智能技术长久以来大多专注在分析(如识别、分类、侦测等),但快速进展的深度学习技术,能因着使用情境而产生适切的内容,也在各方面产生令人惊艳的结果。如显示器、摄影的影像品质强化、自动内容制作、照片视讯编修、AR/VR内容生成、对话机器人等。这些生成内容横跨文字、影像(视讯)、音乐、语音,对于娱乐、安全、自动服务等产业,已经产生极大的变革,也预计会大大影响电子信息产品的技术走向。

以影像为例,传统影像生成的应用之一在于超高分辨率成像(super-resolution),将低分辨率的影像长宽各放大为数倍,而增加的像素内容大都是利用内差法的方式填补。在文字对话上则是针对某些关键字,用简单统计模型或是规则来产生文字内容。因为过于简化,不管对于影像或是文字,在内容观看上还是相当不自然。主要原因有2个:无法真正了解内容为何以及生成模型过于简化。

深度生成模型的进展就逐渐解决了这两个关键问题。不管生成的内容为何,生成模型有3个主要模块:编码器(encoder)、解码器(decoder)、以及生成内容的评量机制。编码器大多类似于深度学习识别用的网络,主要将内容层层分析之后,产生信息量较高端的多个(高纬度)特徵值;这些可能代表了影像、视讯、或是对话中的语意细节。而解码器则是本于内容的深度了解,基于这些特徵值,在深度网络中各层渐进的还原(拼凑出)该有的内容。

生成内容评量则是在训练生成模型时,控制了内容生成的品质。一般以各种成本函数在模型训练时评量生成网络(特别是解码器)的生成内容,用以修正大量的网络参赛;常用的大多是以训练数据中的高品质影像或是文字来衡量品质差异。其中最有趣的是这几年兴起的生成对抗网络(generative adversarial network;GAN),刻意设计了一个识别器(discriminator)来与生成网络对抗,前者努力区分真实与生成(造假)的内容,而生成网络则努力合成难以区分的内容,以对抗的方式彼此增强。

基于这些进展,我们看到了大量高品质,几可乱真的生成内容,这也就是为何DARPA察觉这样的威胁,进而将自动分辨虚实技术,列为美国未来智能技术的发展重点。最近,我们也研究了超低分辨率照片的人脸识别、可以使用在电子商务上的虚拟试穿等新颖生成技术,也惊讶这些技术的突破,以及在各个产业可能带来的影响。

智能生成技术已经在许多软件应用服务上落地为产品,我相信这些技术将会以「增益」的方式进入数码内容录制(生成)及观看使用的电子产品中,其可能影响的层面广与深,绝对是不容忽视的技术进展。

徐宏民(Winston Hsu)现任富智捷(MobileDrive)技术长暨副总经理以及台大信息工程学系教授。哥伦比亚大学电机博士,专精于机器学习、大规模影像视讯查找与识别。为讯连科技研发团队创始成员,慧景科技(thingnario)共同创始人,NVIDIA AI Lab计划主持人;曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会;十余年产学合作及新创经验。曾获2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018伪装人脸识别冠军、杰出信息人才奖、吴大猷先生纪念奖等国内外研究奖项。