zoukankan      html  css  js  c++  java
  • 如何提取关键字计算相似度

    第一步,计算词频。

    考虑到文章有长短之分,为了便于不同文章的比较,进行"词频"标准化。

    或者

    第二步,计算逆文档频率。

    这时,需要一个语料库(corpus),用来模拟语言的使用环境。

    如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。分母之所以要加1,是为了避免分母为0(即所有文档都不包含该词)。log表示对得到的值取对数。

    第三步,计算TF-IDF。

    可以看到,TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。所以,自动提取关键词的算法就很清楚了,就是计算出文档的每个词的TF-IDF值,然后按降序排列,取排在最前面的几个词。

    计算文章相似度算法:

    (1)使用TF-IDF算法,找出两篇文章的关键词;

      (2)每篇文章各取出若干个关键词(比如20个),合并成一个集合,计算每篇文章对于这个集合中的词的词频(为了避免文章长度的差异,可以使用相对词频);

      (3)生成两篇文章各自的词频向量;

      (4)计算两个向量的余弦相似度,值越大就表示越相似。

  • 相关阅读:
    Lambda表达式
    委托
    vue中简单的修改密码校验的代码
    elementUI-select 远程搜索
    对象获取所有的key以及value分别组成数组
    作业
    英文词频统计预备,组合数据类型练习
    凯撒密码、GDP格式化输出、99乘法表
    字符串基本操作
    条件、循环、函数定义 练习
  • 原文地址:https://www.cnblogs.com/csxf/p/3569480.html
Copyright © 2011-2022 走看看