Viscovery采NVIDIA GPU发展AI影像识别技术 智能应用 影音

Viscovery采NVIDIA GPU发展AI影像识别技术

Viscovery营运副总裁刘志锟(左)与Viscovery研发副总陈彦呈博士(右)。
Viscovery营运副总裁刘志锟(左)与Viscovery研发副总陈彦呈博士(右)。

背景

Viscovery(创意引晴)成立于2013年,Viscovery的命名是结合Video和Discovery的双重意涵,着眼于影像分析的深度探索,透过人工智能 (AI)、电脑视觉与深度学习,开发识别影片内容中的人脸、物件、图像、场景、情绪、抽象概念等多样化元素的Video AI解决方案,专注于提供针对媒体、电商、智能零售、品牌主、广告主及网络行销相关平台,提供识别技术服务,其不仅让网络影片内容能结合更贴切的广告题材,同时也能透过影像识别与分析,开发更精准的行销活动。

Viscovery人脸识别技术,识别并标注影片中的明星人脸。

Viscovery人脸识别技术,识别并标注影片中的明星人脸。

Viscovery早期透过商品识别技术发展在线商务(O2O)服务,直到2015年后Viscovery开始使用机器学习大量整合在线影音平台,将广泛的视讯影片经过人、事、时、地、物的标签化识别后,转为在线平台业者提供进一步与广告主产品和服务高度相关联的广告点位推荐服务。

Viscovery采取B2B的营运模式,主要的客户为本身具有大量影音内容的网络平台业者与视讯媒体,以及以大型流量为主的广告营运商,一般的视讯媒体业者或网络平台商都有自己的内部系统,但却缺乏识别影片内容的能力,透过Viscovery的技术协助,这些媒体平台将针对不同影片进行归类与应用,萃取具有高度商业价值的时间点位,并进一步与媒体平台的广告系统衔接,推荐给适当的广告主,以追求最大的广告刊登效益,诚如Viscovery的热切期许,希望透过Video AI技术,协助广告主「在对的时机赢得观众的心」。

挑战

Viscovery的技术需要建立许多的基础数据模型,例如透过广告主过去的刊登纪录,来做为机器学习的输入数据,用来训练视讯影片分类器,其学习的结果可运用在影片的分类与广告对应。由于分类的种类随着不同广告主、产品和使用者族群而有差异,经过数以千或万计的数据纬度分析,有时也分析包括大量的情绪与抽象等元素。

Viscovery最初使用传统的影像特徵比对技术,但是随着商品类别越来越多而陷入识别率下滑的挑战,因此,自2015年开始便采用深度学习技术来克服识别率的问题。视讯上的识别应用技术比起静态影像的识别更为复杂,其必须要在动态影片中进行各种视角的人、物、场景、情绪的侦测与识别,因此,需要大量的影像数据来训练类神经网络,随着蒐集的数据呈爆炸性成长,运算效能、处理时间与花费成本也随之攀升。

Viscovery一直致力于使用更有效的运算平台将大量数据在短时间内处理完毕,以便拉出更精细的分类、标签与信息。Viscovery曾经也直接使用如Tensorflow、Caffe等开源软件,但许多开源软件工具皆以单张画面为识别基础,一旦用来做连续画面的识别时,常因数据量庞大而导致整体效率不彰。而一旦启动人脸识别与追踪模型后,便可能占住整个GPU的资源,当需要更进一步进行场景或其他识别演算法时,数据需重复复制多份,于不同GPU上进行演算,如此一来便造成GPU的使用效能无法有效发挥。

解决方案

Viscovery导入NVIDIA GPU运算平台,并同时在系统运算基础架构上着手进行一系列的改良,透过NVIDIA不同时代的GPU解决方案获得充足的效益,从Fermi到Kepler,以及随后的Maxwell与Pascal架构,NVIDIA提供兼容的软件开发套件(SDK)与高效能工具,对于需要处理大量视讯数据的Viscovery而言,NVIDIA的GPU运算效能不断推升视讯图像识别速度,并帮助从大数据数据中撷取或是凸显数据的特徵,大幅度帮助Viscovery追求处理速度与效能的极致。

Viscovery也曾经尝试使用其他芯片大厂所开发的CPU、GPU与FPGA加速方案,但是因为软件工具的支持不足,加上缺乏底层最佳化的调整,而转为投向NVIDIA的解决方案。

目前透过NVIDIA所提供的完整系统软件工具与GPU,加上在运算基础架构最佳化的设计,Viscovery仅需使用两张NVIDIA Tesla GPU所组合的系统,便可于6分钟内完成1小时影片内的人事时地物识别以及与广告推荐的标签设定,让Viscovery能更有效的处理更大量影片、有效服务更多客户。

Viscovery研发副总陈彦呈博士表示:「NVIDIA 提供完整系统软件工具,可以大幅加速底层矩阵运算所需耗费的时间,让Viscovery的技术开发团队可以心无旁鹜的专注于自己发展的核心技术,同时,NVIDIA GPU的运算效能透过深度神经网络(DNN),可以轻松取得绝佳的效能,让多个识别核心可以依序完成识别的程序。」由于NVIDIA发展CUDA架构已有十几年之久,其所累积的技术实力更是业界所难以望其项背,对Viscovery而言,宛如站在GPU巨人的肩膀上远眺AI应用所展现的精采绝伦。

影响

Viscovery将技术包装成云端API或是SDK,串接媒体平台的内部系统,帮助平台业者建立内部影片的分类信息。有别于一般的Video AI技术,Viscovery的解决方案可应用于场景、物件、人脸、企业商标,以及包括情感与其他抽象内容的识别,同时再配合特定广告主进行决策信息的置入,以协助广告商在影片中找出最重要的刊登时间点,作为产品投递广告的重要依据。

效能的提升促使Viscovery的运算成本能有效降低,也让广告主与媒体平台业者可以掌握成本的优势,一举推出与众不同的服务。目前 Viscovery的机房配置NVIDIA GPU解决方案,具备1个月处理30万小时影片的运作容量,针对更高端的主流平台客户,或是拥有大量视讯内容媒体的客户,甚至可以直接提供硬件系统以扩大处理速度的能力。

Viscovery所提供的创新服务,无论是吸引广告主投递更多的广告、衡量广告在媒体平台上的效益、提供刊登广告的建议、为品牌客户的广告做色情与暴力等安全过滤的机制,甚至建构一个完整的生态系统,让更多的亚洲影视产业、广告主、媒体平台业者形成一个完整的联盟,塑造成一个独立的广告市集(Market place),这些都将驱使Viscovery持续探索视讯影像识别的垂直应用的无限可能,让AI应用成为精准行销与新零售的利器。