
智能技术长久以来大多专注在分析(如識別、分类、侦测等),但快速进展的深度学习技术,能因著使用情境而产生适切的内容,也在各方面产生令人惊艳的结果。如显示器、摄影的影像品质强化、自动内容制作、照片视讯编修、AR/VR内容生成、对话机器人等。这些生成内容横跨文字、影像(视讯)、音乐、语音,对于娱乐、安全、自动服务等产业,已经产生极大的变革,也预计会大大影响电子信息产品的技术走向。
以影像为例,传统影像生成的应用之一在于超高分辨率成像(super-resolution),将低分辨率的影像长宽各放大为数倍,而增加的像素内容大都是利用内差法的方式填补。在文字对话上则是针对某些关键字,用简单统计模型或是规则来产生文字内容。因为过于简化,不管对于影像或是文字,在内容观看上还是相当不自然。主要原因有2个:无法真正了解内容为何以及生成模型过于简化。
深度生成模型的进展就逐渐解决了这两个关键问题。不管生成的内容为何,生成模型有3个主要模塊:编码器(encoder)、解码器(decoder)、以及生成内容的评量机制。编码器大多类似于深度学习識別用的網絡,主要将内容层层分析之后,产生信息量较高端的多个(高纬度)特征值;这些可能代表了影像、视讯、或是对话中的语意细节。而解码器则是本于内容的深度了解,基于这些特征值,在深度網絡中各层渐进的还原(拼凑出)该有的内容。
生成内容评量则是在训练生成模型时,控制了内容生成的品质。一般以各种成本函数在模型训练时评量生成網絡(特别是解码器)的生成内容,用以修正大量的網絡参赛;常用的大多是以训练數據中的高品质影像或是文字来衡量品质差异。其中最有趣的是这几年兴起的生成对抗網絡(generative adversarial network;GAN),刻意设计了一个識別器(discriminator)来与生成網絡对抗,前者努力区分真实与生成(造假)的内容,而生成網絡则努力合成难以区分的内容,以对抗的方式彼此增强。
基于这些进展,我们看到了大量高品质,几可乱真的生成内容,这也就是为何DARPA察觉这样的威胁,进而将自动分辨虚实技术,列为美国未来智能技术的发展重点。最近,我们也研究了超低分辨率照片的人脸識別、可以使用在电子商务上的虚拟试穿等新颖生成技术,也惊讶这些技术的突破,以及在各个产业可能带来的影响。
智能生成技术已经在许多軟件应用服务上落地为产品,我相信这些技术将会以「增益」的方式进入數字内容录制(生成)及观看使用的电子产品中,其可能影响的层面广与深,绝对是不容忽视的技术进展。