zoukankan      html  css  js  c++  java
  • 寒假学习笔记(2)

      今天我查了一些关于lucene的资料,了解到有关什么是搜索,什么是lucene,什么是全文检索,什么是倒排索引(反向索引)

      什么是Lucene:

      Lucene 是 apache 软件基金会的一个子项目,由 Doug Cutting 开发,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的库,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。

      什么是全文检索:  

      全文检索是一种将文件中所有文本与检索项匹配的文字资料检索方法。全文检索首先将要查询的目标文档中的词提取出来,组成索引,通过查询索引达到搜索目标文档的目的。这种先建立索引,再对索引进行搜索的过程就叫全文检索(Full-text Search)。
     
      什么是倒排索引:
     
      有倒排索引就有正排索引,什么是正排索引呢?
      

     “文档1”的ID > 单词1:出现次数,出现位置列表;单词2:出现次数,出现位置列表;…………。

           “文档2”的ID > 此文档出现的关键词列表。

     

      当用户在搜索引擎上搜索某个关键词时,假设只存在正向索引(forward index),那么就需要扫描索引库中的所有文档,找出所有包含该关键词的文档,再根据打分模型进行打分,排出名次后呈现给用户。

      因为互联网上收录在搜索引擎中的文档的数目是个天文数字,这样的索引结构根本无法满足实时返回排名结果的要求。

      所以,搜索引擎会将正向索引重新构建为倒排索引,即把文件ID对应到关键词的映射转换为关键词到文件ID的映射,每个关键词都对应着一系列的文件,这些文件中都出现这个关键词。

           得到倒排索引的结构如下:

           “关键词1”:“文档1”的ID,“文档2”的ID,…………。

           “关键词2”:带有此关键词的文档ID列表。

     

      从词的关键字,去找文档。

      

      倒排索引(Inverted Index):倒排索引是实现“单词-文档矩阵”的一种具体存储形式,通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成:“单词词典”和“倒排文件”。

           单词词典(Lexicon):搜索引擎的通常索引单位是单词,单词词典是由文档集合中出现过的所有单词构成的字符串集合,单词词典内每条索引项记载单词本身的一些信息以及指向“倒排列表”的指针。

           倒排列表(PostingList):倒排列表记载了出现过某个单词的所有文档的文档列表及单词在该文档中出现的位置信息,每条记录称为一个倒排项(Posting)。根据倒排列表,即可获知哪些文档包含某个单词。

           倒排文件(Inverted File):所有单词的倒排列表往往顺序地存储在磁盘的某个文件里,这个文件即被称之为倒排文件,倒排文件是存储倒排索引的物理文件。

      

      引用自:https://www.cnblogs.com/zlslch/p/6440114.html

      遇到的问题:

      scala无法下载。

      之后我又开始从scala官网下载scala,但是下载了半天,尝试了许久,始终是下载失败,真是好无奈。

  • 相关阅读:
    在嵌入式设备中实现webrtc的第三种方式①
    海思dv300cv500交叉编译webrtc
    Windows编译运行webrtc全过程
    如何使用C#调用C++类虚函数(即动态内存调用)
    使用Windows的Linux子系统搭建嵌入式开发环境
    Spring进阶教程之在ApplicationContext初始化完成后重定义Bean
    Java与邮件系统交互之使用Socket验证邮箱是否存在
    旧博客内容 & 洛谷日报(转载)
    多项式不全家桶
    NOIP2020游记
  • 原文地址:https://www.cnblogs.com/jmdd/p/12254198.html
Copyright © 2011-2022 走看看