这里对“热词”的定义是:
某一时间段内起点低,增长迅速
贝叶斯平均算法的计算公式是:
[WR=frac{v}{v+m}R+frac{m}{v+m}C
]
- WR, 加权得分。
- R,该词基础得分。
- v,该词的词频。
- m,平均词频数。
- C, 所有词的平均基础得分。
R的计算公式:
[R = frac{今天词频}{今天词频 + 前一天的词频}
]
举例:
词 | 前一天的词频 | 今天的词频 | 基础得分 | 加权得分 |
---|---|---|---|---|
A | 5 | 10 | 0.66 | 0.619 |
B | 50 | 100 | 0.66 | 0.640 |
C | 50 | 50 | 0.50 | 0.552 |
average | m = 88.33 | C = 0.61 |
简单解释上面的公式,加权得分由两部分组成,一个是该词的基础得分,另一个是所有词的平均基础得分,(frac{v}{v+m})和(frac{m}{v+m})分别是这两部分的系数;当v=0时,WR实际取的C;当v越来越大时,R的占比会越来越大。达到效果是,当该词的R > C时,在相同R的前提下,v越大WR越大。如上面的例子,A和B的基础得分都是0.66,但因此B的词频数量更多,所以B的热值更大。
另一种直觉上的解释是,回归到投票的场景,现在要对每一个词进行打分,每个词的票数是前一天和今天的词频总数,每个词的基础得分是今天词频占总词频的占比.