1.原理
转自:https://zhuanlan.zhihu.com/p/44169714
https://blog.csdn.net/weixin_30566111/article/details/95351782,这里提到了第四点:
2.推导
W距离用在了什么地方?
https://www.cnblogs.com/Allen-rg/p/10305125.html
GAN的原始形式:第一种形式等价在最优判别器下等价于最小化生成分布与真实分布之间的JS散度,
第二种形式在最优判别器下等价于既要最小化生成分布与真实分布直接的KL散度,又要最大化其JS散度,相互矛盾,导致梯度不稳定,而且KL散度的不对称性使得生成器宁可丧失多样性也不愿丧失准确性,导致collapse mode现象。
WGAN本作引入了Wasserstein距离,由于它相对KL散度与JS散度具有优越的平滑特性,理论上可以解决梯度消失问题。
那么目标就是 最小化生成分布和真实分布之间的W距离。