zoukankan      html  css  js  c++  java
  • 搜索引擎学习

    发展的里程碑:

    •   第一阶段:该搜索引擎以“雅虎”为代表,主要依靠于人工分拣的分类目录进行搜索
    •   第二阶段:该搜索引擎以Google为代表,主要依靠于机器抓取和采用链接分析技术进行搜索。与第一阶段的搜索引擎相比,其信息量大、更新及时,返回信息丰富。
    •   第三阶段:该搜索引擎以“综合信息搜索服务”为代表,主要在第二阶段的基础上加入了智能化、人机交互、自动分类技术、中文内容分析等技术,不仅提高了信息检索速度和更新频率,而且还实现了拼音纠错、模糊查询、语音查询等功能

    搜索引擎按照实现的方式分类:

    1. 全文搜索引擎:一般通过网络机器人或网络蜘蛛工具,自动分析网络上的各种连链接并将分析结果按规则整理,并同时存入数据库供显示使用
    2. 分类目录搜索引擎:通过人工的方式收集整理网站资料形成数据库

    在计算机上表示信息获取流程,具体包括:信息的表示、信息存储、信息组织和信息访问

    1. 首先需要创建进行检索的数据,用其构建文本数据库
    2. 创建好文本数据库后,就需要建立文档的索引。Lucene全文搜索组件中是通过倒排索引的方法创建索引
    3. 创建好索引后,就可以进行检索。用户首先需要给出一个查询,该查询将被分析、然后利用文本处理技术进行处理
    4. 最后根据用户的查询将会获取一些文档,即检索结果。在把检索结果反馈给用户之前,还可以对检索结果按照一定的次序排序,以符合用户需要的文档能够排在更前面

    查询方法

    • 顺序查询法:当用户进行查询时,对文档集合不做任何形式的预处理,而且接在文档中进行字符串的简单匹配。虽然该方式简单、容易实现,但是当文本大小超过一定数量级别时,该方式的效率就不能满足实际需求
    • 索引查询法:当用户进行查询时,查询的对象会对文档集合创建的特殊数据结构,该数据结构就是索引。该方式只针对文档的信息相对稳定的情况,因为当文档中的信息发生变化时,还必须对索引进行更新
  • 相关阅读:
    浅析C# new 和Override的区别
    用流打开open office ods 文件
    两个自己写的合并GridView 行的方法
    TSQL 日期格式化
    页面刷新后滚动条定位
    解决 TextBox 的 ReadOnly 属性为 true 时,刷新页面后值丢失的方法
    Sql server 查询条件中将通配符作为文字使用
    window.open 弹出页面回写父页面值及触发父页面Button事件
    注册光标丢失的事件
    模态对话框对父页面控件回写值
  • 原文地址:https://www.cnblogs.com/GenghisKhan/p/2648090.html
Copyright © 2011-2022 走看看