zoukankan      html  css  js  c++  java
  • DBow中,TF-IDF了解

    现在我们要检测《中国的蜜蜂养殖》这篇论文里面的关键词,假设数据库里面有250亿篇论文,

                                     | ——————————每个关键词在本文(待检测样本)中出现比例

                                     |                                   (词频:某单词在某个样本中比例越高,越有区分度)

                                     |

                                     |           | ———————每个关键词在词典(数据库)中出现比例

                                     |           |                       (反文档频率:某单词在总数据库中比例越低,越有区分度)

                                     |           |

                                     |           |                 |——表征:在样本《中国的蜜蜂养殖》中,最能代表它的词源是哪一个

                                     |           |                 |

              包含这个词     TF        IDF         TF-IDF
              语的文档(亿)

    的           250           0.02      -> 0           ->0
    中国       62.3          0.02     0.603      0.0121
    蜜蜂       0.484        0.02     2.713      0.0543
    养殖       0.973        0.02     2.410      0.0482

    再举个例子:

    比如:以三个指标评价一个大学生:编程水平,动手能力,数学功底;

    如果一个大学生叫:单生狗,编程水平一般,动手能力一般,数学功底牛逼;把他放到普通二本

    大学里边,在人群中,他就是鹤立鸡群,你很容易区分他,很容易找到他。但是,如果把他放到

    清华大学,在人群中,一眼望去,你很难找到他,因为,人群中数学功底牛逼的人太多了。

  • 相关阅读:
    EXTI—外部中断/事件控制器
    启动文件讲解
    SysTick—系统定时器
    USART—串口通讯
    关于引脚复用,不得不提的GPIO_Pin_sources 和GPIO_Pin
    DMA—直接存储区访问
    【LightOJ1282】Leading and Trailing(数论)
    【LightOJ1336】Sigma Function(数论)
    【LightOJ1370】Bi-shoe and Phi-shoe(欧拉函数)
    【BZOJ2440】完全平方数(二分答案,莫比乌斯反演)
  • 原文地址:https://www.cnblogs.com/winslam/p/9046998.html
Copyright © 2011-2022 走看看