zoukankan      html  css  js  c++  java
  • Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations

    Locatello F., Bauer S., Lucic M., R"{a}tsch G., Gelly S. Sch"{o}lkopf and Bachem Olivier. Challenging common assumptions in the unsupervised learning of disentangled representations. In International Conference on Machine Leaning (ICML), 2018.

    解耦表示学习(disentangled representations)通常假设图片有独立的几个因素决定, 即:

    [p(x|z) , p(z) = prod_{i=1}^d p(z_i). ]

    本文对这个假设提出质疑.

    主要内容

    VAE 首先通过encoder 将(x)映射为隐变量(z), 再通过隐变量(z)恢复出(x), 其中赋予先验(p(z))常常为标准正态分布, 并且最大化ELBO的同时要最小化:

    [mathrm{KL} (q_{phi}(z|x) | p(z)), ]

    这表示我们希望所提取的隐变量(z)的各分量是相互独立. 形象地说, 我们改变(z_i)就有图片相应的元素发生改变而其它元素不变. 作者认为这种假设简单而美好, 但是在无监督的模式下, 该假设是不可能成立的.

    实际上, 假设先验分布的确如此(p(z) = prod_{i}^d p(z_i)), 则一定存在一个双射(f: mathrm{supp}(z) ightarrow mathrm{supp}(z)), 是的(frac{partial{f_i(z)}}{partial z_j} ot = 0, mathrm{a.e.}, forall i, j), 且(z, f(z))同分布, 即

    [P(z le u) = P(f(z) le u), ]

    又因为(f)是一个双射, 故

    [p(x|z) = p(x|f(z)), ]

    进一步有

    [P(x) = int p(x|z)p(z) mathrm{d}z = int p(x|f(z))p(f(z)) mathrm{d}f(z). ]

    故边缘分布是一致的, 这意味着, 我们除了(p(z)), 还有(p(f(z)))同样可以到处我们的观测数据(P(x)), 反之, 没有额外的信息(即在无监督条件下)我们无法确定所拟合的分布是(p(z))还是(p(f(z))).
    倘若是后者, 我们改变隐变量的某一个维度(f_i), 由于偏导数均不为0, 则几乎所有的(z)都改变了, 也就是真正的控制元素都会发生改变, 这和我们的解耦表示学习的初衷产生了背离. 所以结论就是在无监督条件下, 想要解耦表示是几乎不可能的.

    注: 上面的(f)的构造不是唯一的;
    注: 上面的证明用到了和顺序统计量一样的有趣的玩意.

    作者做了很多很多实验, 个人觉得最能体现这一点就是, 所有这些强调解耦表示的VAE都对参数初始化和超参数选择异常敏感.

  • 相关阅读:
    POJ 1797 Heavy Transportation
    洛谷 P3379 【模板】最近公共祖先(LCA)
    洛谷 P1351 联合权值
    51nod 1272 最大距离
    codevs 1664 清凉冷水
    COGS 1176. [郑州101中学] 月考
    HDU
    HDU
    一坨计算几何的板子
    bzoj2618[Cqoi2006]凸多边形
  • 原文地址:https://www.cnblogs.com/MTandHJ/p/14802217.html
Copyright © 2011-2022 走看看