#信息检索期末预习系列# 第二章布尔检索

zoukankan html css js c++ java

#信息检索期末预习系列# 第二章布尔检索
本文仅做《信息检索技术》期末预习使用，内容简略仅做大纲使用，期末抱佛腿的孩子请另寻他处（博主自己也快预习不完了QAQ）。
- 信息检索模型概述
  
  检索模型的定义
  
  信息检索模型是描述信息检索中的文档、查询和他们之间关系（匹配函数）的数学模型
  
  布尔模型的定义
  
  文档表示：关键词的集合（bag of words）
  
  查询表示（queries）
  
  相关度计算
  
  检索策略：二值匹配
  
  布尔模型的优缺点
  
  优点
  
  查询简单、容易理解
  
  复杂布尔表达式控制查询结果
  
  有效的实现方法
  
  容易学习
  
  通过扩展包含排序功能
  
  缺点
  
  弱
  
  刚性
  
  太多或太少
  
  不考虑权重
  
  很难自动的相关反馈
- 一个简单的搜索示例
  
  grep程序
  
  线性扫描的查找程序
  
  对大规模数据查询较慢、灵活性不强、不支持对结果排序
  
  词项文档索引
  
  处理查询
  
  构造矩阵->110100 and 110111 and 101111 = 100100
  
  返回文档的好坏
  
  查准率：返回的能满足用户信息需求的文档 / 总的返回的文档
  
  召回率：返回的能满足用户信息需求的文档 / 总的能满足用户信息需求的文档
  
  简单模型存在的问题：大的数据集无法构建矩阵
- 倒排索引
  
  倒排索引包含词条（term）、频率（freq）和文档ID（docID）且docID按从小到大排序
  
  建立索引的步骤
  
  词条序列Token Sequence
  
  排序：先按照词条排序，再按照docID排序
  
  词典和倒排表：合并同一篇文档中多次出现的词、记录词汇的文档频率、分割成词典和倒排表
  
  查询的处理（AND）
  
  合并两个倒排表，操作用时为O(x+y)
- 布尔检索模型
查看全文

相关阅读:
foreach next 操作数组指针移动问题，多个数连加，连除，连减，连乘php版本
 mysql 5.7 laravel json类型数据相关操作
 rbac权限控制，基于无线分类
 基于bootstrap-treeview做的一个漂亮的无限分类树层级联动菜单
 css页面字体替换源代码和页面显示不一样问题解决
 centos6.8 编译安装lnmp php7.2 mysql5.6 nginx1.1.4
mysql5.7采坑
 laravel整合vue 多入口解决
 使用mysql设计一个全局订单生产计数器
 laravel整合workerman做聊天室

原文地址：https://www.cnblogs.com/yuemo/p/12915007.html

#信息检索期末预习系列# 第二章 布尔检索

#信息检索期末预习系列# 第二章布尔检索