zoukankan      html  css  js  c++  java
  • 搜索引擎之全文索引

    一、生活中的数据总体分为: 结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。 非结构化数据:指没有固定格式或不定长的数据,如邮件,word文档等。 非结构化数据还有一种叫法:全文数据。

    二、按数据的分类,搜索也分为两种: 对结构化数据的搜索: 如对数据库的搜索:SQL语句。 再如windows的搜索:文件名,类型,修改时间。 对非结构化数据的搜索: 如windows对文件内容的搜索。 Linux下得grep命令。 再如Google和百度可以搜素大量内容数据。 对于非结构化的数据搜索也叫做对全文数据的搜索。

    三、对全文数据的搜索还可以分为两种 1、顺序扫描:如要找内容包含某个字符串的文件,会一个文档一个文档的从头到尾的找,如 Like查找 。 2、索引扫描:把非结构化的数据中的内容提取出来一部分重新组织,让它变的有结构化,这部分我们提取出来的数据就叫做索引.

    全文检索大体分两个过程: 索引创建(Indexer)和 搜索索引(Search)。 索引创建:将现实世界中所有的结构化和非结构化数据提取信息,创建索引的过程。 搜索索引:就是得到用户的查询请求,搜索创建的索引,然后返回结果的过程。

  • 相关阅读:
    JQuery中的AJAX
    (十六)JQuery Ready和angularJS controller的运行顺序问题
    Excel自己定义纸张打印设置碰到无法对上尺寸的问题
    MVC整个样例的源代码
    将Image转化为BufferImage
    Graphics samples2
    Graphics samples
    please tell me the error about java Graphics
    获取网络资源大小
    java通过地址获取主机名
  • 原文地址:https://www.cnblogs.com/songgj/p/9134517.html
Copyright © 2011-2022 走看看