使用 Wasserstein 散度的理由
原 wGAN 论文开篇详细解释了 Wasserstein 度量相较其他常用统计散度的优势。虽然解释得很有技术性,但要传达的信息很简单:Wasserstein 度量可以用来比较完全不同的概率分布。这个不同是什么意思?最常见的例子是两个分布支撑集(函数的非零部分子集)不同,即它们分配零概率的集合组是不同的。假设 P(x) 是由概率密度定义的二维空间上的概率分布。在这个空间中,所有零体积的集合(例如单个点和曲线)在 p 下的概率为零。而 Q(x) 是一种更奇怪的分布,它将所有概率质量集中在一条曲线上。所有不包含该曲线的集合在 Q 下的概率为零,而对于一些具有零体积的集合,只要它们和该曲线有交集,那就会具有非零概率。具体可理解为下图:
这两个分布之间非常不同,很难比较。例如,为了计算它们的 KL 散度,我们需要计算所有点的密度比 p(x)/q(x)。但是对于外围空间,Q 甚至没有密度可言!然而,我们仍然可以使用在上一篇文章中介绍的最优传输形式将一个分布传输到另一个分布!两个分布之间的 Wasserstein 距离为:
让我们详细分析一下这个表达式。括号里的积分是在传输映射为γ(x_2|x_1) 的情况下,将曲线的点 x_1 传输到的外围空间的点 x_2 的平均成本。外边的积分是曲线上定义的分布 Q 下的期望成本平均值。我们可以通过以下四个步骤来总结:(1)从曲线α中选取一个点 x_1,(2)在概率为γ(x_2|x_1) 下从 x_1 到 x_2 传输一个粒子,(3)计算从 x_1 到 x_2 传输粒子的成本,(4)重复多次并求出成本的平均值。当然,为了确保将 Q 传输到目标分布 P,需要检查边缘约束是否满足:
这意味着从 Q 采样粒子后进行传输时,相当于直接从 P 采样粒子。注意,该过程并不关心分布 P 和 Q 是否具有相同的支撑集。因此,我们可以使用 Wasserstein 距离来比较这些极不相同的分布。
但这和实际应用相关吗?绝对相关。实际上,我们在概率机器学习中执行的大多数优化都涉及具有不同支撑集的分布。例如,通常假设自然图像的空间嵌在像素空间中的低维(超)表面中。如果这个假设成立,自然图像的分布就类似于我们奇怪的分布 Q。训练生成模型需要最小化模型与数据的真实分布间的散度。在这种情况下,使用 KL 散度并不是最佳的,因为它仅可以定义用密度表示的分布。这可能是变分自编码器在自然图像上比 GAN 表现差的原因之一。
传说中的推土机距离基础,最优传输理论了解一下
最优传输理论你理解了,传说中的推土机距离重新了解一下
Arjovsky, M., Chintala, S., & Bottou, L. (2017). Wasserstein gan. arXiv preprint arXiv:1701.07875.
Gulrajani, I., Ahmed, F., Arjovsky, M., Dumoulin, V., & Courville, A. C. (2017). Improved training of wasserstein gans. In Advances in neural information processing systems (pp. 5767-5777).