核心技术: 以原创技术体系为根基，SenseCore商汤AI大装置为核心基座，布局多领域、多方向前沿研究，
快速打通AI在各个垂直场景中的应用，向行业赋能。

CVPR 2018 | 商汤科技论文详解：FaceID-GAN：基于三方博弈和信息对称的可控人脸生成

2018-06-16

下周CVPR 2018大会将开启，以下是商汤科技在深度生成对抗式模型方向，提出的基于三方博弈和信息对称的可控人脸生成算法。

论文：FaceID-GAN: Learning aSymmetry Three-Player GAN for Identity-Preserving Face Synthesis

作者：Yujun Shen, Ping Luo, Junjie Yan, Xiaogang Wang, Xiaoou Tang

论文链接：http://openaccess.thecvf.com/content_cvpr_2018/papers/Shen_FaceID-GAN_Learning_a_CVPR_2018_paper.pdf

FaceID-GAN生成效果展示：

简介

近年来，生成式对抗网络(GAN)的提出和发展使得生成式模型(generative model)有了飞速的进步。然而，如何对生成过程进行有效操控(如使用条件生成式对抗模型conditional GAN)，仍有很大的探索空间。本研究以人脸生成为例，提出FaceID-GAN，它是一种可以保持身份信息不变，对人脸姿态和表情进行控制的生成式模型，大大提高了生成式对抗网络(GAN)的可操控性。区别于传统GAN所解决的双方博弈问题，FaceID-GAN的主要设计思想基于“三方博弈”(3-player game)和“信息对称”(information symmetry)。大量的实验结果表明，该方法可以很好地在身份、姿态、表情方面对人脸生成过程进行控制。同时，该模型的设计理念可以轻松地应用于其他有条件的生成式问题上。

生成式模型是机器学习的重要分支之一，其目标是从真实数据中学习数据服从的分布，然后根据学习到的分布进行采样，生成足够真实的数据。对抗生成网络(GAN)是目前最有效的生成式模型之一(如图1(左)中虚线部分所示)，它包含两个部分：一是判别器Discriminator，用来区分真实数据Xr的分布和生成数据Xs的分布;二是生成器Generator，利用随机噪声Z作为输入生成数据Xs，其目的是学习到真实数据的分布，使得生成数据Xs足以迷惑判别器D。两者进行博弈，当达到平衡点的时候，判别器D已经无法区分真实数据分布与生成数据分布，可以认为生成数据已经足够真实。

图1：本文提出的FaceID-GAN和传统GAN的比较

当对生成过程增加限制条件时，比如控制生成人脸的身份信息和输入的人脸相同，如图1(左)所示，常见做法是增加一个图像分类器Classifier。分类器C的目标是对人脸的身份信息进行分类，这里既包括对真实图片Xr进行分类(确保C提取的是身份信息而不是其他信息)，同时包括对生成图片Xs进行分类(起到监督控制Xs身份的作用)。此时生成器G不仅要满足生成图片Xs可以迷惑判别器D，同时还要满足生成图片Xs被分类器C分到与相应的输入图片Xr相同的类别。

然而，此类方法对于身份信息的保持程度并不高，本文作者认为原因有以下两点。第一，分类器C在这一框架中并没有参与到生成器G与判别器D的博弈当中，仅仅起到了为生成数据Xs提供身份监督的作用，约束条件不够强。第二，从图1(左)中可以看出，对于生成器G来说，身份信息的监督是由分类器C提供的;而身份信息的输入则直接来源于Xr。这不仅增加了生成器G的学习难度(学习数据分布的同时，还要学习提取身份信息)，而且整个网络中存在对身份信息的两套编码(分别来自生成器G和分类器C)，两者的不统一大大增加了网络的收敛难度。

基于三方博弈和信息对称的可控人脸图像生成

为此，本文所提出的FaceID-GAN进行了以下改进(如图1(右)所示)。第一，将原有的“双方博弈，一方监督”扩展为“三方博弈”。即分类器C在对真实图片Xr的身份信息进行分类的同时，还要对真实图片Xr和生成图片Xs的身份信息进行不同的分类。具体来说：假设真实图Xr中有N个身份，那么分类器C要进行2N分类。其中，将Xr的不同身份分到前N类，将相应生成的Xs的不同身份分到后N类(即真假不同分类)。与此同时，生成器G在身份信息方面与分类器C进行博弈。类比生成器G和判别器D之间的博弈，分类器C试图从身份信息方面将真实图Xr和生成图Xs区分开，而生成器G试图迷惑分类器C。这样设计的好处在于，在训练过程中，分类器C从真假图片的身份信息上施加约束条件，而这一约束条件随着生成器G生成图片身份相似度的提高而不断加强，反过来促使生成器G生成身份信息保持度更高的图片。

第二，提出了基于信息对称的模型框架。即生成器G不再直接以真实图片Xr作为输入，取而代之的是由分类器C从Xr中提取得到的身份信息。这样改进的好处在于，生成器G无须重新学习身份信息，整个网络中只存在身份信息的一套编码(来自分类器C)。同时，对生成器G来说，身份信息的输入和监督都由分类器C提供，统一了评价标准，使得网络更容易收敛。

第三，为了进一步控制生成人脸的姿态和表情，本方法利用3DMM模型对人脸进行建模，并加入到FaceID-GAN的训练框架中。3DMM是一种能够将二维人脸投射到三维空间的模型，其参数主要包括形状(shape)、表情(expression)和姿态(包括放缩、平移和旋转，本文主要考虑旋转)。同身份信息一样，姿态和表情是人脸的额外信息。如图2所示，本文作者在框架中增加参数提取器P对真实图片Xr进行此类信息的提取，同时利用参数提取器P对生成图片Xs进行姿态表情的监督。与分类器C所不同的是，Xs和Xr需要在身份信息上保持不变，而在姿态和表情方面可以控制(可变)，因此参数提取器P并不与生成器G进行博弈，仅仅起到监督的作用，但依然使用“信息对称”的设计思想。

搞完好的j.jpg

图2：

FaceID-GAN的训练框架

具体训练框架如图2所示，给定一张输入真实图像Xr，通过分类器C提取出身份信息，通过参数提取器P提取出姿态表情信息(即3DMM参数)，然后利用函数g(·)对参数中的姿态和表情部分进行修改(由于3DMM参数中的形状部分与身份相关，因此不做修改)，得到目标信息(即为控制生成相应的姿态表情所对应的参数)。生成器G以身份信息、目标姿态表情信息和噪声z为输入，输出生成图像Xs。生成图像Xs利用同样的分类器C和参数提取器P进行监督(前后两个C和两个P均共享参数)，以保证身份的保持，以及姿态表情的可控。与此同时，生成器G和判别器D在图像真实性上进行对抗，生成器G和分类器C在身份信息上进行对抗，实现三方博弈。(注：图2中的ϕ(·,·)，dcos(·,·)，dl2(·,·)，R(·)代表不同的损失函数)。

实验结果

图3和图4展示了FaceID-GAN模型的人脸生成结果。由图3中可以看出，FaceID-GAN所实现的高质量人脸生成，在很好地保持输入图片的身份信息的同时，可以生成连续变化的姿态和表情。图4中的第一行展示了目标3DMM参数所对应的三维人脸模型，第一列为输入图片。从行列的交叉比较中可以看出，FaceID-GAN能够将身份信息和姿态表情信息剥离开来，鲁棒地实现身份的保持和姿态表情的可控。

图3：

FaceID-GAN生成结果，左上角为输入图片，

前两行为不同给定姿态条件下的生成图像，

第三行为不同给定表情条件下的生成图像

结论

本文作者认为，此框架不仅适用于人脸生成，还可以用于设计解决其他有条件的生成模型。其遵循的原则为：真实图像和生成图像采用相同的评价标准，保持信息的前后对称。同时，信息中需要保持不变的部分(如身份信息、图像真实性)进行对抗博弈，需要控制改变的部分(如姿态、表情)不进行对抗。在FaceID-GAN中具体表现为，生成器G的信息输入和信息监督都是通过分类器C和参数提取器P得到的，体现了信息对称原则。同时，为了保证生成图像真实性与输入图像相同，生成器G与判别器D进行对抗;为了保证生成图像身份信息与输入图像相同，生成器G与分类器C进行对抗;为了控制改变生成图像的姿态和表情，生成器G与参数提取器P不进行对抗。沿着这一思路，三方博弈可以扩展至多方博弈，解决更加复杂的生成问题。