zoukankan      html  css  js  c++  java
  • 搜索引擎

    1.概述

         搜索引擎是指网络上专门提供查询服务的一类网站,这些网站通过网络搜索软件或网站登录等方式,将网络上大量网站的页面收集到本地,经过加工处理而建库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。用户的查询途径主要包括自由词全文检索、主题词检索、分类检索及其它特殊信息的检索。

    2.分类

    目前,网络上的搜索引擎可分为以下两大类:

    a 自由词或关键词检索搜索引擎。

    b 分类搜索引擎。

    当然这两类搜索引擎的功能是互相借鉴和渗透的。

    3.检索功能

         除分类浏览或自由词检索外等基本功能外,提供各种检索功能扩展,如逻辑检索功能(支持AND、OR、NOT),其他逻辑检索功能(NEAR、PHRASE)和各种其它功能(如截词检索)等。在进行词的检索时,应具有以下功能。

    a  多个关键词之间只需用空格分开。

    b 没有空格切割的关键词相当于或者。

    c 在结果中再搜索。

    d 英文字母不区分大小写。

    e 网页查询时可以直接用网址进行查询。

    f 在对词的检索过程中,排除一些无关的信息,这样有助于搜索到更准确的内容,使搜索结果绝对忠实于用户的检索提问。

    g  在英文关键词搜索中,一些标点符号如“_”、“”、“+”、“=”、“,”“'”也可作为短语连接符。

    4.搜索显示结果

         搜索引擎总是要将检索结果返回给用户,而结果显示的好坏直接影响到搜索引擎的使用效果。因此,结果显示的内容组织,如何排序,是否提供足够的相关信息(内码、文件大小、文件日期等),对用户对检索结果的判断具有很大的影响。

    5.页面组织

         大多数搜索引擎本身就是web站点,其页面组织就如同用户的使用界面一样,组织得好与坏直接影响到用户的使用效果。页面是否能根据用户需求定制也是页面组织的一个重要内容。

    6.搜索引擎的特点

        由于语言、文化上的差异,中文搜索引擎必然会与国外的搜索引擎有所有同,如果不首先认识到中文搜索引擎的特点,就不能正确地作出比较。

    (1) 内码处理

          在中文语言中,主要分为GB码与BIG5码字符集格式,为了在计算机中解决这个问题,需奥在搜索引擎内部将其统一在一个内码体系中(如UNICODE)或者是一个大字符集中(如GBK)等。

    (2) 分词处理

         英文单词的分隔相当清晰,用空格分隔。而中文的字词则不能简单地进行分隔,因此造成传统上就有不同的处理方法。一个是完全单汉字全文检索,即将文章中的每个汉字都做进索引,而将用户的检索提问根据单汉字匹配的原则去进行检索。此法虽然能够保证有很高的查全率,但却经常返回一些杂乱无章的检索结果。所以说,这是较容易造成答非所问的处理方法。除此以外的方法则是根据一定的原则和方法来对文章进行自动分词,然后按词建库,对用户的检索结果按词汇匹配来进行查询。通常情况下,这种处理方法较容易返回符合用户检索词概念意义的检索结果,但是分词技术的好坏直接影响到查全率。从目前中文搜索引擎实际情况来看,绝大多数的搜索引擎采用分词的处理方法,因为这样除了较准确之外还能提高整个系统的检索响应效率。

         中文分词的另一层意义是指的是,对于用户输入的查询语句进行自动分词,然后用分解后的词汇来进行检索,这种做法降低了用户在检索式组织上的工作量,提高了查全率和查准率。由于各搜索引擎在建库时是否分词及如何分词,这在检索界面上很难以作出判断。

    (3) 分类处理

        除了专门的分类搜索引擎(如Yahoo等)之外,大量的关键词搜索引擎也采用了以分类目录进行导览的方法。在中文分类搜索引擎中更为普遍。但是由于文化的差异,中文搜索引擎分类类目具有与国外搜索引擎分类类目不同的特点。因此,在处理中文词汇的分类时,需要更加完美的处理。

  • 相关阅读:
    Content delivery network
    散列算法的基础原理 确保资料传递无误
    科学计算 NumPy 与C语言对比 N-dimensional array ndarray 元素元素操作 计算正太分布分位数 ndarray中的所有元素的类型都是相同的,而Python列表中的元素类型是任意的,所以ndarray在存储元素时内存可以连续,而python原生list就只能通过寻址方式找到下一个元素
    t
    百度 url 当在baidu搜索结果展示页,去点击标头时
    指定文件夹 指定文件后缀名 删除整个文件夹 git 冲突解决 create a new repository on the command line push an existing repository from the command line rebase
    修改MojoWeixin 只保留用户name 取消群昵称
    AnyEvent::HTTP 介绍
    AnyEvent::HTTP 介绍
    异步和同步http请求超时机制
  • 原文地址:https://www.cnblogs.com/zkn11199/p/5571952.html
Copyright © 2011-2022 走看看