智能技术可以具有人类的视觉美感吗？

徐宏民
2018-12-11
分享
Line

目前已有软件可以让一般人自动将影片转换为特定画家的风格，利用卷积网的数千万个参数，学习到影像转换的方式，产生如油画电影《梵谷：星夜之谜》的效果。Vincent van Gogh

我们看到了智能技术在影像识别、侦测上的突破，甚至落地为产品。很多人问，这些深度学习为核心的电脑视觉技术也可以具有人类的美感—具有评判、编修、甚至美学创作的能力吗？

智能视觉美感技术大致可以区分为三类：首先为影像(或视讯)编修强化，包括修图(对比、亮度、景深等)、超高分辨率成像、突破压缩技术、改善电视显像品质、加速电影(内容)特效制作、甚至主动改善车辆安全驾驶在低亮度下的视讯品质；其次为照片美学评分、取景，自动挑选具美感的照片或是画面；第三为自动生成不存在的影像。而这些核心技术所启发的应用都已经是进行式，或是即将落地为产品。

相关技术大大改变量码内容产业。梵谷油画电影《梵谷：星夜之谜(Loving Vincent)》耗时6年，动员超过百位来自世界各地的画家才完成这个耗时、耗资的工作。目前已经有软件服务完成类似的功能，可以让一般人自动将影片转换为特定画家的风格，透过画家的经典创作，让卷积网络(CNN)的数千万个参数，学习到影像转换的方式，均衡风格跟影片内容。我们在两年前参与的IBM华生研究中心预告片自动剪辑研究，也同样带来类似产业的突破。

一般的卷积网络架构为设计适合的编码器以及相对的解码器；前者将画面内容解析之后，透过后者生成适切的影像(强化或是编修)，大量的卷积网络参数透过事前的训练数据来达成目的。而时常被忽略的是适合的目标函数，通常得同时使用多个，并将领域知识吸纳其中，这是成功与否的重要关键！

在美学评分方面，一般利用卷积网络加上回归函式来逼近美感分数。最大的挑战在于训练的数据。因为严谨的美感牵涉到文化、社会、以及个人的差异，可以取得的训练数据─不管是透过人工标注或是社群网络下载—不全具代表性，很难学习到通用的美感。不过在特定家用照片上，透过自动评分，甚至修正照片(旋转、取景、饱和度等)等都已经落地在国内外的各种应用当中。如果能进一步熟悉应用场域，个人化适性学习，将有更大发挥的空间。

最具挑战的是从无到有生成具美感的影像，一般都尝试利用生成对抗网络(GAN)来实现，但是目前在速度、分辨率、生成品质控制上都还有相当努力的空间。

值得产业注意的是，我们观察到这些视觉美感智能突破也逐渐由云端走入本地端。镜头、摄影机、电视等相关芯片都已经看到国内外的公司正逐渐布局。因为提供具美感的生活体验，不正也是智能时代的新产品吗？

徐宏民
台大资工系教授

徐宏民(Winston Hsu)现任富智捷(MobileDrive)技术长暨副总经理以及台大信息工程学系教授。哥伦比亚大学电机博士，专精于机器学习、大规模影像视讯查找与识别。为讯连科技研发团队创始成员，慧景科技(thingnario)共同创始人，NVIDIA AI Lab计划主持人；曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会；十余年产学合作及新创经验。曾获2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018伪装人脸识别冠军、杰出信息人才奖、吴大猷先生纪念奖等国内外研究奖项。