人脸合成系列近期文章整理

zoukankan html css js c++ java

人脸合成系列近期文章整理
StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation

重要，单开一篇笔记。

FaceID-GAN: Learning a Symmetry Three-Player GAN for Identity-Preserving Face Synthesis

CVPR 2018 重要，单开一篇笔记。

Conditional Face Synthesis for Data Augmentation

PRCV 2018
使用VAE+CGAN
三个创新点：
- 用增广的数据辅助训练
- 多尺度判别器获得高质量图像
- 使用identity-preserving loss和classification matching loss保证id不变，特征匹配loss提高训练稳定性。
判别器同时做real/fake分类和id分类，在判别器的最后三层特征图上做FM（特征匹配） loss，又用一个旁观的识别模型做感知loss，与FM类似。VAE生成的是两张图，一是不加噪生成的重构图，二是加噪生成的合成图，重构图做重构loss，重构和合成图都做判别损失。

最终实验，在FaceScrub上train生成模型和识别模型，在LFW上直接test，没有对LFW作增强。两种增强方式，一是为已知id生成更多样本；二是生成新id。竟然都word，但是第二种带来的提高不大。但是没有试过两种方式都用。由于训练集和测试集不是一个，所以准确率仅92-93，毕竟太高了就不能体现增强的效果了，应该是出于这个考虑没有在LFW上训练。
对实验的可靠性持怀疑态度。。

Generating Photo-Realistic Training Data to Improve Face Recognition Accuracy

Work in progress...ICML 2019?
目标也是要生成新的id参与人脸识别任务的训练。将one-hot的id向量经过一个enbedding网络变为连续的高斯分布，输出为E(y)，用对抗自编码器的思想迫使E(y)服从高斯。然后再采样一个噪声向量(z_{nid})，与E(y)一同输入生成器。这样，E(y)编码了id相关的信息，作者希望噪声向量(z_{nid})编码id无关的信息，例如表情，所以用了InfoGAN的思路将(z_{nid})搞成id无关的属性信息。注意，用InfoGAN学习id无关的属性，不需要属性的标注，但学出来的东西应该不如带属性标注的方法（如StarGAN）靠谱。实验部分没看，作者肯定是从E(y)中随机采样，当做新的id编码，用生成的图像参与训练。整个生成架构使用WGAN-gp+PGGAN。

Generative Adversarial Network with Spatial Attention for Face Attribute Editing

ECCV 2018 Shiguang Shan团队
文章的核心就是引入空间Attention机制，引导属性edit，其实Attention机制Dacheng Tao老师和Ian Goodfellow今年都做了类似的工作，特别是Dacheng老师的那一篇，可以说跟这一篇几乎完全一样，所以这篇文章感觉有点水。Motivation很直接，就是引入空间的Attention，让模型有目的地去修改像素，而不是像CycleGAN或者StarGAN一样全图改。作者也提到了，这种方法可以用来做数据增强，有利于人脸识别任务。

本文以CycleGAN、StarGAN和ResGAN作为baseline，其中ResGAN的想法就是学残差图，再跟原图相加，其实我之前做过类似实验，不太靠谱。

本文提出的方法，生成器只有一个，类似StarGAN，以原图和条件作为输入，但是条件只能有一个，这一点比StarGAN弱，作者说了这是下一步改进的方向，照理说多条件的实现也没多难？难道是因为效果不好，或者没时间做了？生成器分为两个部分，一个是attribute manipulation net（AMN），另一个是spatial attention net（SAN），AMN任务是改像素，SAN任务是找到关键的修改区域。AMN的输入是条件+image，四通道；SAN只输入图像，三通道，这里我表示严重的怀疑，如果SAN的输入没有条件，如何focus到目标区域？毕竟目标区域和条件是直接相关的啊！算了，继续往下扯。判别器输入是一张图像，输出两个东西，一是src，即来源于真实分布还是伪造分布；二是cls，即输入图像是否具有目标属性。两个输出都是标量，表示概率。这里对第二个输出cls又表示严重的怀疑，模型要弄的属性有很多个，虽说每次只能改一个，但是判别器哪里知道你要判断的是哪个属性？？？

实验部分就不多说了。主要提一下这个东西用于人脸识别任务的实验，个人对于人脸的这几个任务还不太熟，说实话这里看的还不是很明白，可能写的有点问题。作者并没有用生成的图像参与训练，而是在测试集上对于每个id生成几个新样本。我的理解是，对于每个query样本，随便编辑两下多搞出几个增广样本，再分别送到模型里去查？也就是把单查询任务搞成多查询，让性能得到提高。作者最后写道，在CelebA上做了smile的增强之后性能有所下降，可能是因为数据库里smile的脸比较少。

Show, Attend and Translate: Unpaired Multi-Domain Image-to-Image Translation with Visual Attention

CVPR 2019？？
StarGAN基础上的改进，主要内容：一是target label vector应该加在哪个阶段，结论是不应该跟原始图像拼起来，而应该加在中间的特征上；二是加了action vector，取值是-1,0,1，代表编辑的方向，根据输入图像的属性和目标属性来计算，这样可以更好地引导生成，实际上就是让生成器不需要学习输入图像所属的域，StarGAN中的生成器实际上需要隐式地把这个东西给学到；三是Attention，这个跟Shiguang Shan老师那一篇可以说是一毛一样的。
关于视觉attention的作用，文中给的说法是：能够捕捉输入图像和目标domain之间的相关性，使得domain-unrelated的区域得以保留。
此文的贡献有限，而且action vector无疑增加了对标注的要求，必须知道输入图像相应的属性模型才能工作，这个贡献，我觉得不行。如果投的是CVPR 2019，我觉得中不了。。。希望作者不要干我。

Attribute-Guided Face Generation Using Conditional CycleGAN

ECCV 2018 腾讯优图
这篇要做的事情是超分辨，给定低分辨率的图像和人脸的属性，生成高分辨率的图像，大概是这意思，目前关系不大，就先不看了。
查看全文

相关阅读:
javascript keycode大全
 在WEB环境下打印报表的crystal的解决方案
 Trim()
C#应用结构体变量
 锚点定位
 C# 按地址传值
 [GIIS]JS 图片 Preview
c# 模拟网站登陆
 此数据库没有有效所有者，因此无法安装数据库关系图支持对象" 解决方法
 风讯.NET与NETCMS的选择—开源.NET内容管理系统

原文地址：https://www.cnblogs.com/jiujing23333/p/10098504.html

人脸合成系列近期文章整理

StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation

FaceID-GAN: Learning a Symmetry Three-Player GAN for Identity-Preserving Face Synthesis

Conditional Face Synthesis for Data Augmentation

Generating Photo-Realistic Training Data to Improve Face Recognition Accuracy

Generative Adversarial Network with Spatial Attention for Face Attribute Editing

Show, Attend and Translate: Unpaired Multi-Domain Image-to-Image Translation with Visual Attention

Attribute-Guided Face Generation Using Conditional CycleGAN