zoukankan      html  css  js  c++  java
  • wmd距离

    word mover's  Distance

    优点:

    1.效果出色

    2.无监督:不需要标注数据

    3.模型简单:仅将词向量作为结果输入

    4.可解释下:问题转为线性规划,有全局最优解

    5.灵活性:可以人为干预词的重要性

    缺点:

     1.词袋模型,没有保留语序信息

    2.不能很好地处理词向量的out of vocabulary问题

    3.否定词、同义词、互斥词的处理效果不好

    4.时间复杂度较高

    步骤:

    1.利用word2vec将词编码成词向量。

    2.去掉停用词

    3.计算词在文本中的权重,一般用词频表示

    4.对于每个词,找到另外一个文本的一些词,如果两个词的词义比较相近,可以全部移动或移动多一些,语义差别较大,可以少移动或不移动。最后用词向量的距离乘以移动的距离相乘作为词的转移代价。

    5最终保证全局的转移代价最小。

    6.文本一的词要全部移出,文本二中的词要全部移入。

    参考文献:

    https://zhuanlan.zhihu.com/p/84809907

  • 相关阅读:
    css-css背景
    css-概述和选择器
    html-补充
    html-示例代码
    html-表格和列表
    html-表单
    html-常用标签
    html- 头部元素
    html-介绍
    SQLAlchemy-对象关系教程ORM-连接,子查询
  • 原文地址:https://www.cnblogs.com/liuguangshou123/p/13370460.html
Copyright © 2011-2022 走看看