zoukankan      html  css  js  c++  java
  • 基于贝叶斯平均的新词发现算法

    这里对“热词”的定义是:

    某一时间段内起点低,增长迅速

    贝叶斯平均算法的计算公式是:

    [WR=frac{v}{v+m}R+frac{m}{v+m}C ]

    • WR, 加权得分。
      • R,该词基础得分。
      • v,该词的词频。
      • m,平均词频数。
      • C, 所有词的平均基础得分。

    R的计算公式:

    [R = frac{今天词频}{今天词频 + 前一天的词频} ]

    举例:

    前一天的词频 今天的词频 基础得分 加权得分
    A 5 10 0.66 0.619
    B 50 100 0.66 0.640
    C 50 50 0.50 0.552
    average m = 88.33 C = 0.61

    简单解释上面的公式,加权得分由两部分组成,一个是该词的基础得分,另一个是所有词的平均基础得分,(frac{v}{v+m})(frac{m}{v+m})分别是这两部分的系数;当v=0时,WR实际取的C;当v越来越大时,R的占比会越来越大。达到效果是,当该词的R > C时,在相同R的前提下,v越大WR越大。如上面的例子,A和B的基础得分都是0.66,但因此B的词频数量更多,所以B的热值更大。

    另一种直觉上的解释是,回归到投票的场景,现在要对每一个词进行打分,每个词的票数是前一天和今天的词频总数,每个词的基础得分是今天词频占总词频的占比.

  • 相关阅读:
    Python 异常处理
    Python 持久存储
    Python 用户登录验证(类的继承)
    Python 类的继承/覆盖
    Python 类与对象变量
    NSNotificationCenter
    编译错误:expected specifierqualifierlist before ‘class'
    NSTimer
    如何获取应用程序委托对象
    如何从iPhone启动AppStore
  • 原文地址:https://www.cnblogs.com/hwyang/p/14840152.html
Copyright © 2011-2022 走看看