智能生成模型的产业机会

徐宏民

2018-10-16

智能技术长久以来大多专注在分析(如識別、分类、侦测等)，但快速进展的深度学习技术，能因著使用情境而产生适切的内容，也在各方面产生令人惊艳的结果。如显示器、摄影的影像品质强化、自动内容制作、照片视讯编修、AR/VR内容生成、对话机器人等。这些生成内容横跨文字、影像(视讯)、音乐、语音，对于娱乐、安全、自动服务等产业，已经产生极大的变革，也预计会大大影响电子信息产品的技术走向。

以影像为例，传统影像生成的应用之一在于超高分辨率成像(super-resolution)，将低分辨率的影像长宽各放大为数倍，而增加的像素内容大都是利用内差法的方式填补。在文字对话上则是针对某些关键字，用简单统计模型或是规则来产生文字内容。因为过于简化，不管对于影像或是文字，在内容观看上还是相当不自然。主要原因有2个：无法真正了解内容为何以及生成模型过于简化。

深度生成模型的进展就逐渐解决了这两个关键问题。不管生成的内容为何，生成模型有3个主要模塊：编码器(encoder)、解码器(decoder)、以及生成内容的评量机制。编码器大多类似于深度学习識別用的網絡，主要将内容层层分析之后，产生信息量较高端的多个(高纬度)特征值；这些可能代表了影像、视讯、或是对话中的语意细节。而解码器则是本于内容的深度了解，基于这些特征值，在深度網絡中各层渐进的还原(拼凑出)该有的内容。

生成内容评量则是在训练生成模型时，控制了内容生成的品质。一般以各种成本函数在模型训练时评量生成網絡(特别是解码器)的生成内容，用以修正大量的網絡参赛；常用的大多是以训练數據中的高品质影像或是文字来衡量品质差异。其中最有趣的是这几年兴起的生成对抗網絡(generative adversarial network；GAN)，刻意设计了一个識別器(discriminator)来与生成網絡对抗，前者努力区分真实与生成(造假)的内容，而生成網絡则努力合成难以区分的内容，以对抗的方式彼此增强。

基于这些进展，我们看到了大量高品质，几可乱真的生成内容，这也就是为何DARPA察觉这样的威胁，进而将自动分辨虚实技术，列为美国未来智能技术的发展重点。最近，我们也研究了超低分辨率照片的人脸識別、可以使用在电子商务上的虚拟试穿等新颖生成技术，也惊讶这些技术的突破，以及在各个产业可能带来的影响。

智能生成技术已经在许多軟件应用服务上落地为产品，我相信这些技术将会以「增益」的方式进入數字内容录制(生成)及观看使用的电子产品中，其可能影响的层面广与深，绝对是不容忽视的技术进展。

智能生成模型的产业机会

徐宏民台灣大學信息工程学系教授

作者其他文章

推荐活动

邦博士快讯

【国网中心】TAIWAN AI RAP 实战工作坊 ft. 思锐

智能生成模型的产业机会

徐宏民 台灣大學信息工程学系教授

作者其他文章

推荐活动

邦博士快讯

【国网中心】TAIWAN AI RAP 实战工作坊 ft. 思锐

徐宏民台灣大學信息工程学系教授