zoukankan      html  css  js  c++  java
  • 人脸合成系列近期文章整理

    StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation

    重要,单开一篇笔记。

    FaceID-GAN: Learning a Symmetry Three-Player GAN for Identity-Preserving Face Synthesis

    CVPR 2018 重要,单开一篇笔记。

    Conditional Face Synthesis for Data Augmentation

    PRCV 2018
    使用VAE+CGAN
    三个创新点:

    • 用增广的数据辅助训练
    • 多尺度判别器获得高质量图像
    • 使用identity-preserving loss和classification matching loss保证id不变,特征匹配loss提高训练稳定性。

    判别器同时做real/fake分类和id分类,在判别器的最后三层特征图上做FM(特征匹配) loss,又用一个旁观的识别模型做感知loss,与FM类似。VAE生成的是两张图,一是不加噪生成的重构图,二是加噪生成的合成图,重构图做重构loss,重构和合成图都做判别损失。

    最终实验,在FaceScrub上train生成模型和识别模型,在LFW上直接test,没有对LFW作增强。两种增强方式,一是为已知id生成更多样本;二是生成新id。竟然都word,但是第二种带来的提高不大。但是没有试过两种方式都用。由于训练集和测试集不是一个,所以准确率仅92-93,毕竟太高了就不能体现增强的效果了,应该是出于这个考虑没有在LFW上训练。
    对实验的可靠性持怀疑态度。。

    Generating Photo-Realistic Training Data to Improve Face Recognition Accuracy

    Work in progress...ICML 2019?
    目标也是要生成新的id参与人脸识别任务的训练。将one-hot的id向量经过一个enbedding网络变为连续的高斯分布,输出为E(y),用对抗自编码器的思想迫使E(y)服从高斯。然后再采样一个噪声向量(z_{nid}),与E(y)一同输入生成器。这样,E(y)编码了id相关的信息,作者希望噪声向量(z_{nid})编码id无关的信息,例如表情,所以用了InfoGAN的思路将(z_{nid})搞成id无关的属性信息。注意,用InfoGAN学习id无关的属性,不需要属性的标注,但学出来的东西应该不如带属性标注的方法(如StarGAN)靠谱。实验部分没看,作者肯定是从E(y)中随机采样,当做新的id编码,用生成的图像参与训练。整个生成架构使用WGAN-gp+PGGAN。

    Generative Adversarial Network with Spatial Attention for Face Attribute Editing

    ECCV 2018 Shiguang Shan团队
    文章的核心就是引入空间Attention机制,引导属性edit,其实Attention机制Dacheng Tao老师和Ian Goodfellow今年都做了类似的工作,特别是Dacheng老师的那一篇,可以说跟这一篇几乎完全一样,所以这篇文章感觉有点水。Motivation很直接,就是引入空间的Attention,让模型有目的地去修改像素,而不是像CycleGAN或者StarGAN一样全图改。作者也提到了,这种方法可以用来做数据增强,有利于人脸识别任务。

    本文以CycleGAN、StarGAN和ResGAN作为baseline,其中ResGAN的想法就是学残差图,再跟原图相加,其实我之前做过类似实验,不太靠谱。

    本文提出的方法,生成器只有一个,类似StarGAN,以原图和条件作为输入,但是条件只能有一个,这一点比StarGAN弱,作者说了这是下一步改进的方向,照理说多条件的实现也没多难?难道是因为效果不好,或者没时间做了?生成器分为两个部分,一个是attribute manipulation net(AMN),另一个是spatial attention net(SAN),AMN任务是改像素,SAN任务是找到关键的修改区域。AMN的输入是条件+image,四通道;SAN只输入图像,三通道,这里我表示严重的怀疑,如果SAN的输入没有条件,如何focus到目标区域?毕竟目标区域和条件是直接相关的啊!算了,继续往下扯。判别器输入是一张图像,输出两个东西,一是src,即来源于真实分布还是伪造分布;二是cls,即输入图像是否具有目标属性。两个输出都是标量,表示概率。这里对第二个输出cls又表示严重的怀疑,模型要弄的属性有很多个,虽说每次只能改一个,但是判别器哪里知道你要判断的是哪个属性???

    实验部分就不多说了。主要提一下这个东西用于人脸识别任务的实验,个人对于人脸的这几个任务还不太熟,说实话这里看的还不是很明白,可能写的有点问题。作者并没有用生成的图像参与训练,而是在测试集上对于每个id生成几个新样本。我的理解是,对于每个query样本,随便编辑两下多搞出几个增广样本,再分别送到模型里去查?也就是把单查询任务搞成多查询,让性能得到提高。作者最后写道,在CelebA上做了smile的增强之后性能有所下降,可能是因为数据库里smile的脸比较少。

    Show, Attend and Translate: Unpaired Multi-Domain Image-to-Image Translation with Visual Attention

    CVPR 2019??
    StarGAN基础上的改进,主要内容:一是target label vector应该加在哪个阶段,结论是不应该跟原始图像拼起来,而应该加在中间的特征上;二是加了action vector,取值是-1,0,1,代表编辑的方向,根据输入图像的属性和目标属性来计算,这样可以更好地引导生成,实际上就是让生成器不需要学习输入图像所属的域,StarGAN中的生成器实际上需要隐式地把这个东西给学到;三是Attention,这个跟Shiguang Shan老师那一篇可以说是一毛一样的。
    关于视觉attention的作用,文中给的说法是:能够捕捉输入图像和目标domain之间的相关性,使得domain-unrelated的区域得以保留。
    此文的贡献有限,而且action vector无疑增加了对标注的要求,必须知道输入图像相应的属性模型才能工作,这个贡献,我觉得不行。如果投的是CVPR 2019,我觉得中不了。。。希望作者不要干我。

    Attribute-Guided Face Generation Using Conditional CycleGAN

    ECCV 2018 腾讯优图
    这篇要做的事情是超分辨,给定低分辨率的图像和人脸的属性,生成高分辨率的图像,大概是这意思,目前关系不大,就先不看了。

  • 相关阅读:
    2021 省选颓记
    题解 UVA12459 Bees' ancestors
    题解 UVA10812 Beat the Spread!
    题解 UVA12230 过河 Crossing Rivers
    题解 P1850 [NOIP2016 提高组] 换教室
    题解 P1297 [国家集训队]单选错位
    CSP2020 游记
    学习笔记10-18
    【题解-SP1724 TRICOUNT】简单易懂的递推式写法
    题解:论如何利用 大 模 拟 吊打LGJ~
  • 原文地址:https://www.cnblogs.com/jiujing23333/p/10098504.html
Copyright © 2011-2022 走看看