【犀牛鸟·视野】SIGGRAPH ASIA 2018:腾讯“AI画师YUI”的背后技术
导语腾讯AI Lab在SIGGRAPH ASIA 2018上展出了自主研发的“AI画师YUI”demo。访客可以直接用手机拍摄一张自己的照片,然后利用AI画师YUI的微信小程序自动将真人头像转换成萌萌的日系二次元头像。转换结果可以现场打印成照片,供访客带回家留念。很多访客都亲身试用了该功能,表示非常有趣,期待着未来的正式上线。
图1 SIGGRAPH AISA上现场展示AI画师YUI
YUI 的日文假名写法为“ゆい”,对应汉字为“結”(简体中文:结),其意思即“连结”。其名字的寓意是希望 YUI 能够通过她的绘画连结三次元与二次元这两个不同的世界。
01自研图像转换技术,提高精度与质量YUI中运用的图像转换技术,是目前计算机视觉领域最热门的研究方向之一。传统的纸娃娃系统拥有大量预先绘制好的部件,然后再通过一定的组合方式拼接到一起。与纸娃娃系统不同,YUI绘制的二次元头像的每个像素均由深度神经网络直接生成。相较于图像滤镜和风格转化等技术,YUI将两种头像的头发和五官一一对应,实现了更复杂、更高层次的部件级对应、认知与转化。YUI基于腾讯AI Lab自研的堆叠式循环一致性生成对抗网络(Stacked Cycle-Consistent GAN, 简称SCAN),在生成对抗网络和循环一致性的基础上,进一步提高了图像转换的精度与质量。
最近在无监督条件下图像到图像转换方法的研究取得了较为显著的进展,这一方法的主要思想是训练一对具有循环一致性损失(cycle-consistent loss)的生成对抗网络(Generative Adversarial Networks)。然而,如果图像分辨率过高,或者两个图像域具有显著的差异(例如 Cityscapes 数据集中图像语义与城市景观照片之间的转换),这种无监督方法可能会产生较差的结果。通过把单个转换分解为多阶段转换,团队提出了的堆叠循环一致性对抗网络的图像转换方法(SCAN)。这一方法能够学习低分辨率图像到图像的转换,然后基于低分辨率的转换学习更高分辨率的转换,这样做提高了图像转换质量,并且使得学习高分辨率转换成为可能。此外,为了适当地利用前一阶段学习到的信息,研究者设计了自适应融合块以动态整合当前阶段与之前阶段的输出信息。在多个基准数据集中的实验表明,与以前的单阶段方法相比,本文提出的方法大大提高了图像到图像转换的质量。
图像转换(Image Translation)是最近兴起的热门研究方向,在保留图像高层次语义内容的同时学习图像域之间的转换。许多计算机视觉的问题都可以形式化为图像转换问题,如超分辨率、图像着色、图像分割等。腾讯AI Lab的“画师YUI”是一种将真人图像转换为二次元图像的技术,主要基于自研的堆叠式循环一致性生成对抗网络。
02神经网络,真人与二次元形象的学习与转化深度学习目前的主要研究方向包括:图像、视频、三维场景的识别与理解,深度学习与传统方法的结合,深度生成模型等。其中生成模型一直占有重要的地位,这是由于现在深度学习基本由数据驱动,如果能够模拟高维数据的分布并生成数据,对于数据量缺乏的训练场景将很有帮助。生成对抗网络(Generative Adversarial Networks)是目前深度生成模型研究最火热的研究对象,这主要是因为它相比其他图像生成模型(如VAE,PixelCNN),生成的图像更为锐利清晰。此外,生成对抗网络也给生成模型的研究提供了一条新思路,即引入博弈论思想。无论是从算法还是从思路上,生成对抗网络都对生成模型产生了巨大影响。
YUI通过深度神经网络完成真人和二次元形象的特征学习与转化。这与传统的预处理部件的纸娃娃系统不一样,YUI系统的“渲染”全部是由神经网络完成的。整个系统最重要的步骤是转换网络:首先,通过对大量的动漫图像的学习,总结出日系二次元风格的大眼睛、小嘴巴等作画特征;然后再通过对真人图像的学习,掌握了真人图像的特征。基于以上学习到两种特征的区别,YUI进一步从两种图像之间寻找真人图像到二次元图像的对应关系,最终得到真人图像到二次元图像的渲染模型。对于输入的人像,YUI先通过人脸识别模型分析该人像的五官与轮廓特征,然后通过真人图像到二次元图像的渲染模型来生成与该人像相似的二次元人像。这样的做法避免了繁琐的基于规则的图像分析,并且无需美工处理合成素材,全部的分析与合成工作由神经网络完成。
图2 自动识别出人脸之后,转化网络会将人脸转化为二次元头像
画师 YUI 的绘画过程实际上是寻找图像到图像的对应,简单地说就是把一种图像转换为另一种图像。和传统的图像滤镜(Image Filter)、最近兴起的风格转化(Style Transfer)等技术完成的任务相似却又不尽相同。图像滤镜和风格转化主要是完成颜色与纹理的转换,这些转换并不需要对输入图像进行高层次的认知。与它们不同,画师 YUI 学习了更加复杂的高层次的部件级对应关系,同时也学习了更为复杂的形变操作。如图中展示的 YUI 作品中,真人头像和二次元头像的头发和五官都是对应的。这种部件级别的对应需要对整个图像中人脸的每个部件都进行整体的认知与转化,图像滤镜与风格转化等是没办法做到的。
03卷积神经网络(CNN)构成的“转化网络”YUI 背后的核心技术为卷积神经网络(CNN)构成的“转化网络”,该网络的任务是完成人像到二次元形象的转化。腾讯AI Lab “画师YUI”基于堆叠式循环一致性生成对抗网络,在生成对抗网络和循环一致性的基础上进一步提高了生成图片的精度与质量。它首先学习低分辨率的图像转换,然后基于低分辨率的转换在更高分辨率下学习图像转换,提高了图像转换质量。团队采用了基于生成对抗网络(GAN)的方式来训练 YUI 的转化网络。生成对抗网络由生成器和判别器两部分组成,生成器负责产生与该输入图像相似的二次元图像,判别器负责判别哪些是原始的二次元形象,哪些是由生成器生成出来的二次元形象。生成器不断地学习如何生成更高质量的二次元形象来欺骗判别器,同时判别器也不断学习如何更好地区分原始的二次元形象和生成的二次元形象。最终两者相互促进,使得生成器能够根据输入人像生成接近人类画师水平的二次元形象。最后,团队以训练得到的生成器作为 YUI 的转化网络。 通常训练深度神经网络需要大量带标签的样本。如 ImageNet 物体分类的任务需要百万级别的带标签样本。对于本任务,标签即给定人像对应的二次元形象。但这有一个很大的困难:训练这样的转化网络需要大量输入-标签的样本对,然而获得具有人像与二次元形象对应关系的样本对通常需要花费大量金钱雇用专业画师,并且需要耗费很长时间,两方面都很不现实。为了解决这个困难,团队采用了加入循环一致性(Cycle-consistency)方式来无监督地训练转化网络。这里的“无监督”指的是不需要预设任何图片的对应关系,仅有两种图片域的大量样本。模型自动地从没有对应关系的样本数据中学习所需要的对应关系。例如需要学习人像到二次元头像的转换,没有人像与该人像对应二次元头像这样的配对数据,仅依靠从互联网上收集的人像与二次元头像的无配对数据,由网络自动学习其配对关系。具体地说,我们同时在学习转化网络与其的逆变换两个转化网络,转化网络的工作是把人像转化为二次元头像,反向转换网络的工作则是把二次元头像转化为人像。当两个网络都学习到了理想的转换时,网络才会得到最正面的学习反馈。具体的训练过程如下图所示:
然而,仅靠这样的学习方式很难达到团队希望的高层次的对应关系,特别是在希望学习的变换涉及到形变等复杂变换时。团队经实验发现,在低分辨率中这样的困难会被缓解。主要原因是在低分辨率的情况下这样的形变等变换的跨度会变小,使其更容易学习。于是,团队把一次性转化拆分为从粗到细的多步转换。首先学习在低分辨率的转化,然后再学习低分辨率到高分辨率的细化。这样的做法降低了每个转换步骤中的学习难度,使得学习复杂的变换成为可能。为了适当地利用前一阶段学到的信息,腾讯AI Lab团队设计了自适应融合块,将当前阶段的输入学习和前一阶段的输出动态整合,从而提高了图片生成的精度。整体的流程如下图所示:
YUI未来将进一步增加更多的功能。例如支持半身乃至全身人像的二次元转换、更精细的画风细分和适配等。目前YUI学习的是二次元整体的平均风格。但其实每位真人画师或者漫画家都有各自独特的风格。例如海贼王和火影忍者的画风就截然不同。团队未来将继续深入研究如何基于少量数据快速地训练一个指定画风的模型。此外,团队也在尝试将目前面向图像的二次元转换技术扩展至视频,解决无监督训练情况下的视频时域一致性的问题。期望能够实现视频拍摄入口的实时二次元滤镜。YUI现在还不是一个技巧超级熟练的画师,它还有一些地方需要改进,例如不能很好地应对侧脸、脸部遮挡、复杂光线条件等特殊情况,未来 YUI 将更努力地学习完善复杂场景中的生成效果。
图3 正在实验中的半身人像转换效果
END
页:
[1]