[IR课程笔记]统计语言模型

zoukankan html css js c++ java

[IR课程笔记]统计语言模型

Basic idea

1.一个文档（document）只有一个主题（topic）

2.主题指的是这个主题下文档中词语是如何出现的

3.在某一主题下文档中经常出现的词语，这个词语在这个主题中也是经常出现的。

4.在某一主题下文档中不经常出现的词语，这个词语在这个主题中也是不经常出现的。

5.由此，概率计算方法可以近似为：

Ranking

当给定查询q时，怎么根据统计语言模型进行排序呢?有三种排序方法，分别是：1.Query-likelihood 2.Document-likelihood

3.Divergence (差异) of query and document models

查询q = (q_1,q_2,...,q_k),M_D表示在统计语言模型下的文档。

1.Query-likelihood

Example:

Q = “人民创造” D1 = “在漫长的历史进程中中国人民辛勤劳动不懈探索勇于创造中国人民热爱和平 ”

P(“人民”|MD1)=2/18, P(“创造”|MD1)=1/18

P(Q|MD1) = P(“人民”|MD1)*P(“创造”|MD1) = 2/18 * 1/18

2.Document-likelihood

存在的问题：a.文档的长度相差很大，很难比较 b.由于文档中出现的词很多没有出现在查询中，将会出现零频问题 c.将会出现无意义的作弊网页

解决这些问题的方法：

3.Divergence (差异) of query and document models

上式中w指的是同时出现在q和d中的词语，它的意义是用Q对D进行编码，所需要的位数

零频问题

解决方法：1.拉普拉斯平滑：把每个词的词频都加1。

2.Lindstone correction：把每个词都加一个很小的值ε。

3.Absolute Discounting：把词频不等于0的词减去一个很小的值ε，再把这些值平均分配到词频为1的词上去。

查看全文

相关阅读:
WPF:linq
WPF:ListView数据绑定及Style
WPF: DatePicker
多线程16--单例--懒汉模式和静态内部类形
 多线程15--线程本地变量ThreadLocal
多线程14---模拟消息队列
 多线程13--多线程并发购票--低效的线程安全的车票容器
 多线程10--线程间实时通信--耗性能的轮询
 自定义video的controls（播放暂停按钮、进度条、快进快退等）
js+css 写出简单2048游戏

原文地址：https://www.cnblogs.com/leeshum/p/4889400.html