基于贝叶斯平均的新词发现算法 - 走看看

zoukankan html css js c++ java

基于贝叶斯平均的新词发现算法
这里对“热词”的定义是：

某一时间段内起点低，增长迅速

贝叶斯平均算法的计算公式是：

[WR=frac{v}{v+m}R+frac{m}{v+m}C ]
- WR，加权得分。
  
  R，该词基础得分。
  
  v，该词的词频。
  
  m，平均词频数。
  
  C，所有词的平均基础得分。
R的计算公式：

[R = frac{今天词频}{今天词频 + 前一天的词频} ]
举例：

词前一天的词频今天的词频基础得分加权得分

A 5 10 0.66 0.619

B 50 100 0.66 0.640

C 50 50 0.50 0.552

average m = 88.33 C = 0.61

简单解释上面的公式，加权得分由两部分组成，一个是该词的基础得分，另一个是所有词的平均基础得分，(frac{v}{v+m})和(frac{m}{v+m})分别是这两部分的系数；当v=0时，WR实际取的C；当v越来越大时，R的占比会越来越大。达到效果是，当该词的R > C时，在相同R的前提下，v越大WR越大。如上面的例子，A和B的基础得分都是0.66，但因此B的词频数量更多，所以B的热值更大。

另一种直觉上的解释是,回归到投票的场景,现在要对每一个词进行打分,每个词的票数是前一天和今天的词频总数,每个词的基础得分是今天词频占总词频的占比.
查看全文

相关阅读:
vue技术分享之你可能不知道的7个秘密
 JVM知识总结-运行时区域划分
 如何使用加多宝(jdb)在linux下调试Java程序
 RabbitMQ 高可用之镜像队列
 Gson格式转换Integer变为Double类型问题解决
 IPv6地址表示方式
 MySQL truncate()函数的使用说明
 Java 实现判断主机是否能 ping 通
 MySQL 性能优化系列之一单表预处理
 Linux 查看CPU和内存的使用情况

原文地址：https://www.cnblogs.com/hwyang/p/14840152.html

Copyright © 2011-2022 走看看