IRGAN：A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models

zoukankan html css js c++ java

IRGAN：A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models
https://arxiv.org/pdf/1705.10513.pdf

论文阅读笔记：

https://www.cnblogs.com/liaohuiqiang/p/9694277.html

https://blog.csdn.net/molong1208/article/details/78080161

IRGAN
1. 可以利用GAN的思想，把两种检索模型结合起来，克服它们的缺点。如下图所示。
2. 以生成式检索模型作为生成器，输入query，我们选取相关的document，构成数据对，作为生成数据。
3. 以判别式检索模型作为判别器，用一个打分score来表示判别器的判别能力，判别器越能区分生成数据和真实数据（即输入生成数据时输出0，输入真实数据时输出1），则判别能力越强。
4. 根据生成器生成的固定数据和真实数据，训练判别器。然后固定判别器，训练生成器使得判别器的判别能力最小化（即输入生成数据时也输出1）。这样完成一次博弈，迭代多次博弈不断训练。
1. 从GAN到IRGAN：IRGAN就是把GAN的技术用到信息检索中，IRGAN和GAN的不同点在于IRGAN生成器是输入query然后从已有的document中选取，而GAN是用随机噪音进行生成的。因为IRGAN生成的数据是离散的（需要对documents进行采样），所以需要使用基于策略梯度的强化学习来训练生成器。
公式
1. 最小化最大化：前面提到，整个训练就是生成器和判别器博弈的过程，如下图中的式子，先进行一个最大化训练一个判别能力强的判别器，然后做一个最小化来训练一个能骗过判别器的生成器。不断迭代这个过程。
2. JS散度：对式子进行最大化后（训练判别器）得到的这个式子其实是一个JS散度，衡量生成数据和真实数据的分布。然后对JS散度进行最小化（训练生成器）就可以使生成数据逼近真实数据。
3. 训练判别器：最大化这个式子，使用sample的方法，发现其实就是一个逻辑回归的二分类问题。
4. 训练生成器：因为IRGAN里面最后是从document池中进行采样，可能softmax概率改变一点点，采样的结果并不会产生变化，这样难以进行梯度的传递更新，所以使用基于策略梯度的强化学习来训练。
5. 目标函数的改进：训练生成器的时候，考虑到目标函数在一开始下降地比较慢，做了一下修改。于是最后得到的策略梯度也发生了变化，奖赏项变成了判别器输出的log，这也很直观，强化学习要让奖赏越来越大，这里刚好就是让判别器的输出越大越好（接近1，让判别器以为生成的数据是真实的）。后面考虑到log使得训练不稳定，于是把log也去掉了。最后为了让奖赏有正有负，做了一个乘2减1的修正。
实验

如下几个图所示，其中s(x)表示生成器和判别器的公式。
查看全文

相关阅读:
字符编码进制转换
 Android工具HierarchyViewer 代码导读(1) 功能实现演示
 jQuery中的bind(), live(), on(), delegate()
[转]ActionScript3.0中XML处理方法
 Pane和Panel的区别
 [转]在命令行中编译运行Java Applet
[转]关于五险一金，你知道多少？
[转]ActionScript3.0对象深复制
 [转]用Flashbug调试Flash
[转]用EditPlus搭建简易的Java开发环境

原文地址：https://www.cnblogs.com/Allen-rg/p/10307473.html

IRGAN：A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models

IRGAN

公式

实验