zoukankan      html  css  js  c++  java
  • 2019-2020 文本生成图片 Text To Image(T2I) Synthesis 论文整理

    参考:文本生成图像!GAN生成对抗网络相关论文大汇总

    (只看了摘要)

    1.  A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis 

      介绍了关于GAN生成对抗网络的相关Text-to-Image论文,将其分类为Semantic Enhancement GANs, Resolution Enhancement GANs, Diversity Enhancement GANs, Motion Enhancement GANs四类,介绍了代表性model,如下图所示。

    2. Adversarial Learning of Semantic Relevance in Text to Image Synthesis 

      介绍的模型以conditional GANs为基础,改进了discriminator的一个辅助功能。该模型生成的图片不受特定种类的限制,并且在语义上匹配文本输入时不会模式崩溃(mode collapse)。采用了负采样的训练方法。数据集:Oxford-102 flflower,使用inception score和multi-scale structural similarity index (MS-SSIM) metrics评定可分辨率和生成图片多样性。

    3. Controllable Text-to-Image Generation

      ControlGAN。可以控制图片局部生成,一个word-level的generator。有github代码:https://github.com/mrlibw/ControlGAN。

    4. CPGAN Full-Spectrum Content-Parsing Generative Adversarial Networks for Text-to-Image Synthesis

      content parsing。同时parse文本和图片。设计了一个memory structure。使用了一个conditional discriminator来判断文本图片局部的联系。

    5. Cycle Text-to-Image GAN with BERT

      基于Attention GAN的改进。引入循环机制,将生成的图片翻译回文本。以BERT预训练的word embedding为基本text featurizer。

    6. Describe What to Change: A Text-guided Unsupervised Image-to-Image Translation Approach

      使用文本控制image-to-image特定部分的改变,比如“把头发的颜色变成红色”。

    7. Development of a New Image-to-text Conversion System for Pashto Farsi and Traditional Chinese

      这是ocr,已删。

    8. DF-GAN: Deep Fusion Generative Adversarial Networks for Text-to-Image Synthesis

      针对高分辨率。提出了一个只有一队discriminator和generator的基本模型,一个新的正则化方法来保证图片和文本的semantic consistency,一个有效利用文本的语义特征并在生产过程中深入融合文本和图像的深度文本图像fusion block。

    9. DM-GAN: Dynamic Memory Generative Adversarial Networks for Text-to-Image Synthesis

      现有的生成是先生成轮廓,在逐步细化。本论文针对当生成的轮廓效果不好时,引入一个dynamic memory module来修改生成的轮廓。

      数据集:Caltech-UCSD Birds 200 dataset, the Microsoft Common Objects in Context dataset

    10.  Dual Adversarial Inference for Text-to-Image Synthesis

      学习了文本中的两个部分:content(例如color, composition)和style description(例如location, quantity,size等),提出dual adversarial inference(双重对抗性推理)。数据集:Oxford-102, CUB,COCO datasets.

    11. Efficient Neural Architecture for Text-to-Image Synthesis

      using a single stage training with a single generator and a single discriminator。引入deep residual networks 和entence interpolation strategy来学习一个平滑的条件空间。
     
      基于不直接描述图片的visual content长文本生成。模型基于StackGAN-v2。数据集:recipe1M。 
      代码:https://github.com/netanelyo/Recipe2ImageGAN.
     
      文本控制image-to-image,数据集:COCO。
     
      介绍了MirrorGAN:text-to-image-to-text framework,思想有点类似于CycleGAN。
     
      通过使用特定的mode-seeking loss function 来规避图片生成过程中发生的mode collapse,数据集:Caltech Birds (CUB) , Microsoft COCO。
     
      文本控制image-to-image生成。ManiGAN分为两个部分:ACM建立要修改部分的text到image的映射,并对不需要修改的部分进行编码,DCM完成修改。数据集:Caltech Birds (CUB) , Microsoft COCO。有代码。
     
      通过结合perceptual understanding感知来生成good-initialized的轮廓。基于StackGAN。数据集MS COCO。
     
      不知道是什么论文,有点奇怪。待看。
     
      Object-driven的注意力GAN,专注于以对象为中心的text-to-image生成。数据集COCO。
     
      文本控制image-to-image生成。
     
      Segmentation Attention GAN。数据集CUB,Oxford-102。
     
      新的评估标准Semantic Object Accuracy (SOA)评断文本和图片的语义一致性。
     
      消除语义混乱。数据集:Caltech Birds (CUB) , Microsoft COCO。
     
      attention-based encoder学习word到pixel,条件自回归decoder学习pixel到pixel和图像的生成。使用了Structural Similarity Index评估。数据集:COCO,MNIST-with-captions。
     
      文本控制人像的image-to-image生成。用VQA Perceptual Score评估。(效果看起来不是很好)
     
      文本控制图像修复。有代码。
     
      文本生成图片再生成视频。分两步训练,先根据文本生成高质量的单帧图片,再生成连续帧。
     
      先从图片生成文本,在用到text-to-image 的训练。数据集:LSUN-bedroom
     
      提出新的评估metrics,应该是向量距离差不多的东西。
     
      图片文本互相转化。轻量级模型。使用了transformer,和annealing conditional hinge loss。数据集:CUB,MS-COCO。
     
     

      T2I可以用于计算机辅助设计,图像编辑,游戏开发,图像艺术生成。

      传统的T2I:

      Attribute2Image 模型。

       multimodal learning指用多种方法学习。等同于multiple learning。

      讲到的model:

      1. 使用conditional GANs,将文字作为condition label输入,缺点:当文字有多个keyword或者是长文本时没法同时限制输入。

      

      2.与方法1不同,将文本作为input feature。

      3.使用金字塔generator和三个独立的侧重于图像不同部位的discriminator,来在多个层次上建立photo-realistic图像 

      4.判断图片semantic relevance语义相关性而不是以class prediction类预测。

      5. Semantic Enhancement GANs:主要目标在于让生成图像与输入文本语义相关。一般将文本作为dense feature进行编码,再作为输入到另一个神经网络来生成图像。

      6.Resolution Enhancement GANs:主要目标在于生成高质量的与文本语义相关的图像。一般使用multi-stage GAN,将前面的GAN的输出作为输入输入到后面的GAN来生成更高质量的图像。

      7.Diversity Enhancement GANs:生成拥有不同类型和外表特征的图像。通过一个额外的部分来评估生成图像和文本的语义相关性,来最大化diversity。

      8.Motion Enhancement GANs:生成视频。先生成与文本动作匹配的图像,再通过映射过程确保时间顺序是一致的。

      9.Vo, D. M. and Sugimoto, A. (2018). Paired-d gan for semantic image synthesis:将前景和背景分开合成。skip-connection。

      10.MC-GAN(multi-conditional GAN):合成源图像中的背景和由文本描述的前景。只使用卷积和normalization来提取背景特征,没有用到线性函数。

      11.DC-GAN(Deep Convolutional GAN,2016):multimodal,结合了RNN和GAN。数据集:Caltech-UCSD Birds 和 Oxford-102 Flowers。

      12.StackGAN(Stacked Generative Adversarial Network) : 分为两个阶段,第一个阶段生成rough image(低分辨率),第二个阶段细调。改进版本使用了更多的stage。Conditioning Augumentation对文本进行高斯分布,并进行小的变动来增加diversity。

      12.5 StackGAN++:tree-like structure。

      13.AttnGAN:引入Attention机制。使用叠加的GAN,第一层输入一个sentence-level的文本embedding和随机噪声向量,生成一个低分辨率的图像,该图像和word-level的文本embedding被送到‘attention model’,将每个词和该图像的一部分相对应,从而生成一个word-context矩阵。再将该矩阵和图像输入到下一层,以此类推。AttnGAN在CUB和COCO上的表现强于StackGAN和StackGAN++。

      14.DM-GAN(Dynamic Memory GAN):引入一个动态内存组件来细调生成的rough image,从而生成高质量的图片。

      15.HD-GAN(Hierarchically-nested Adversarial Network):图A表示的就是类似StackGAN的多阶段生成的建构方式,前一阶段的输出作为下阶段的输入,逐步的提高生成图像的分辨率;图B是一个生成器对应对应多个判别器,这样的方式实现了对于生成图像不同方面的关注;图C是逐步训练对称判别器和生成器的架构,同样也是一种对阶段生成的方式;图D表示的就是HDGAN,通过单流的生成器和层次嵌套判别器的架构来实现端到端的训练。详细内容

      16.AC-GAN(Auxiliary Classified GAN):增加了一个辅助分类器,即判别器多了一个分类功能。https://zhuanlan.zhihu.com/p/91592775

       17.TAC-GAN:比起AC-GAN,将分类标签用文本描述替代。

      18.Text-SeGAN: 将分类layer改成了回归layer来量化语义相关。

      19.MirrorGAN:镜像结构,结合了T2I和I2T。

      20.SceneGraphGAN:引入了Scene Graph(类似于Unity游戏引擎的Scene层次结构那种)的概念,将图像改为Scene Graph,更方便确定物体的相对位置。

      21.T2V:text to video。基于cGAN。捕捉static特征(gist)和dynamic特征。生成的分辨率低。

      22.StoryGAN:Story encoder编码故事整体的连续性,context encoder在deep RNN图像生成过程中捕捉上下文信息,还有两个discriminator来评估生成的图像和story,以及整体的一致性。使用了CLEVER和Pororo cartoon数据集。

      

      Loss:

      1.Perceptual Loss:不仅与文本语义相关,而且保留无关特征。

      2.color-consistency loss。

      3.Deep Attentional Multimodal Similarity Model (DAMSM):在sentence-level和word-level计算图像和文本的相似性。

      4. Inception Score(IS):计算条件分布的熵entropy(randomness)以及大量生成的图片的边缘分布。条件分布的entropy低意味着该图片有意义,边缘分布的entropy高意味着diversity。IS为两个entropy之间的KL-divergence(散度)。

      5.FCN-Scores:根据生成的有意义的图片会被分类到与其类似的图片的类中,来计算。

      6.Frechet Inceptiondistance(FID):在分布上计算比较生成的图片和真实的图片,分数越高代表关联性越低。

      数据集: 

      1.MNIST。

      2.Oxford-102:包含102种花,每一种花有40-58张图片和相应的文本描述。

      3.COCO:有91类328k图片,每张图片里有多个物体,每个物体一个标签,即一张图片对应多个标签。

      4.CUB:包含200 birds和相应的文本描述。

      5.CIFAR-10:60000张32x32彩色图片,共10类,每类6000张。

  • 相关阅读:
    qunar面试题及一位大牛的解答
    深入理解js里面的this
    用js实现的一个可拖动标签的例子
    Linux启动详细过程(开机启动顺序)
    linux下用top命令查看cpu利用率超过100%
    linux内核内存管理(zone_dma zone_normal zone_highmem)
    用户线程与内核线程如何映射?
    Linux用户空间与内核地址空间
    linux超级块和inode 详解 和 df 、du 命令详解与环境变量
    内核空间、进程和线程等概念
  • 原文地址:https://www.cnblogs.com/zyyz1126/p/14474382.html
Copyright © 2011-2022 走看看