Taming Transformers for High-Resolution Image Synthesis（第一部分）

zoukankan html css js c++ java

Taming Transformers for High-Resolution Image Synthesis（第一部分）
基于 Transformers 高分变率图像的合成
摘要:
为了设计学习序列的数据的长期交互作用，transformers继续在各种各样的任务中显示着最先进的成果。与CNN相比，他们不包含优先考虑本地交互的归纳偏差（CNN有考虑？体现在哪里？）这使得他们富于表现力，但在计算上也不适合与长序列，比如高分辨率的图像。我们演示了如何将CNN对于归纳偏差的有效性和transformer的表达能力相结合，使它们能够建模并合成高分辨率的图像。我们展示了如何使用CNN学习上下文信息丰富的词汇图像成分，并反过来利用ransformer去高效地建模生成高分辨率的图像。我们的方法准备好应用于有条件的合成任务中，其中包括非空间信息例如对象类别和空间信息例如分割，可以控制生成的图像。特别地，我们提出第一个结果可以通过transformer基于语义引导合成百万级像素的图像。
1. 引入：
  Transformer发展迅速。他现在是语言任务的标准结构。并且，它很迅速地被应用到了其他领域例如声音和视觉。相比于先前的有统治力的视觉结构（CNN）。Transformer结构没有包含内置的归纳优点在本地的交互，因此可以不受约束地从它的输入中学习复杂的关系。然而，这也通常意味着它不得不学习所有的关系，然而CNN被设计出来去开发先前的知识关于图像中的强大的局部相关性。因此，transformer提高了表达能力带来了平方的计算成本。因为所有的两两相互作用被考虑在内了。因此最先进的transformer模型所需的能量和时间需求成为其生成数百万像素分辨率图像的根本问题。我们观察到，transformer倾向于去学习卷积的结构，因此回避了一个问题：我们是否有重新学习我们所知道的所有关于图像的局部结构和规律性在从头每次训练一个视觉模型的时候。或者，我们是否能高效地编码归纳图像偏差的同时保持transformer的灵活性。我们假设，局部的连接可以更好地描述低级的图像结构。例如CNN不只是通过所有位置的共享权值表现出强烈的局域性偏见，同时也表现空间不变性的偏差。如果对于输入有更全面的理解这样他们就会失效。
  我们的关键是获得一个高效和更富有表现力的模型。我们的模型是想要让卷积和Transformer相结合从而能够组成视觉世界的本质。我们使用了一个卷积的方法去高效地学习富文本的视觉部分的codebook并且随后学习他们全局组成的一个模型。这个在这些组成成分长范围的交互需要一个富有表达能力的transformer结构来对于各个部分的视觉贡献进行建模。此外，我们使用一种对抗的方法来确保字典局部部分捕获感知上重要的局部结构以降低在使用transformer建模低级统计的需要。我们让transformer专注于他们独特的能力，建模长范围的关系，使得他们合成高分辨率的图像。这是一个以前没有的壮举。我们的公式直接控制通过调节信息考虑所需对象类和空间布局生成图像。最后实验证明了我们的方法保留了transformer的优势，超越了之前基于codebook的卷积结构最好的方法。
作者：LightAc
出处：https://www.cnblogs.com/lightac/
联系：
Email: dzz@stu.ouc.edu.cn
QQ: 1171613053
本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文链接，否则保留追究法律责任的权利。
查看全文

相关阅读:
LOJ 2553 「CTSC2018」暴力写挂——边分治+虚树
 hdu 1028 & hdu 1398 —— 整数划分(生成函数)
bzoj 4827 [Hnoi2017] 礼物 —— FFT
bzoj 4503 两个串 —— FFT
bzoj 3527 [Zjoi2014] 力 —— FFT
bzoj 3160 万径人踪灭 —— FFT
bzoj 2194 快速傅立叶之二 —— FFT
bzoj 2179 FFT快速傅立叶 —— FFT
洛谷 P3803 多项式乘法（FFT） —— FFT
CF 1009 F Dominant Indices —— 长链剖分+指针

原文地址：https://www.cnblogs.com/lightac/p/15025359.html