word mover's Distance
优点:
1.效果出色
2.无监督:不需要标注数据
3.模型简单:仅将词向量作为结果输入
4.可解释下:问题转为线性规划,有全局最优解
5.灵活性:可以人为干预词的重要性
缺点:
1.词袋模型,没有保留语序信息
2.不能很好地处理词向量的out of vocabulary问题
3.否定词、同义词、互斥词的处理效果不好
4.时间复杂度较高
步骤:
1.利用word2vec将词编码成词向量。
2.去掉停用词
3.计算词在文本中的权重,一般用词频表示
4.对于每个词,找到另外一个文本的一些词,如果两个词的词义比较相近,可以全部移动或移动多一些,语义差别较大,可以少移动或不移动。最后用词向量的距离乘以移动的距离相乘作为词的转移代价。
5最终保证全局的转移代价最小。
6.文本一的词要全部移出,文本二中的词要全部移入。
参考文献: