问题:如果分布P和Q,KL(P||Q)很大而KL(Q||P)很小表示什么现象?
还是看定义吧。
直观来说,这是对随机变量的每个取值上,这个值的加权平均。这里加权的权值是 (其实就是算了个期望)。
在大的地方,想让KL散度小,我们需要让的值尽量也大;而当本身小的时候,对整个KL的影响却没有那么大(因为log项本身因为分子就很小,再加上乘以了很小的)。直观来说就是,在P的概率密度大的地方,它应该尽量和Q概率密度大的区域保持一致以保证KL散度小,而在P概率密度很小的地方,P和Q的差别对KL的影响很小。
画图来说(懒得画了),就是P高的地方应该和Q的形状尽量一致,但P低的地方就无所谓了。 的解释可能更接近信息论受众的理解,我这里试着给一个概率的理解:* KL(P||Q) 很大,意味着在P事件大概率时,Q事件不一定有大概率;
* KL(Q||P) 很小,意味着当Q事件有大概率时,P事件同样有大概率。
造成这种现象的一种可能的成因是:Q是造成P的多种原因之一,所以当Q发生时(高概率),P也发生(高概率);而P还有其他的成因,所以当P发生时,Q不一定会发生。当然理解成从属/包含关系也是另一种可行的思路:Q是P的子集,所以Q发生时P一定发生,而P发生时,有可能是PQ中的某些事件发生了,所以Q不一定发生。
参考文献:知乎回答