zoukankan      html  css  js  c++  java
  • 基于贝叶斯平均的新词发现算法

    这里对“热词”的定义是:

    某一时间段内起点低,增长迅速

    贝叶斯平均算法的计算公式是:

    [WR=frac{v}{v+m}R+frac{m}{v+m}C ]

    • WR, 加权得分。
      • R,该词基础得分。
      • v,该词的词频。
      • m,平均词频数。
      • C, 所有词的平均基础得分。

    R的计算公式:

    [R = frac{今天词频}{今天词频 + 前一天的词频} ]

    举例:

    前一天的词频 今天的词频 基础得分 加权得分
    A 5 10 0.66 0.619
    B 50 100 0.66 0.640
    C 50 50 0.50 0.552
    average m = 88.33 C = 0.61

    简单解释上面的公式,加权得分由两部分组成,一个是该词的基础得分,另一个是所有词的平均基础得分,(frac{v}{v+m})(frac{m}{v+m})分别是这两部分的系数;当v=0时,WR实际取的C;当v越来越大时,R的占比会越来越大。达到效果是,当该词的R > C时,在相同R的前提下,v越大WR越大。如上面的例子,A和B的基础得分都是0.66,但因此B的词频数量更多,所以B的热值更大。

    另一种直觉上的解释是,回归到投票的场景,现在要对每一个词进行打分,每个词的票数是前一天和今天的词频总数,每个词的基础得分是今天词频占总词频的占比.

  • 相关阅读:
    JVM基础(一)—— 运行时内存结构
    SQL if 和 case when查询示例
    SQL分组聚合查询
    My music
    DataX增量同步到ADB ADS时报错
    shell find的用法
    pycharm安装
    在两个库中查找出差异明细
    docker下安装centos
    升级RDS8.0遇到的问题
  • 原文地址:https://www.cnblogs.com/hwyang/p/14840152.html
Copyright © 2011-2022 走看看