zoukankan      html  css  js  c++  java
  • 搜索引擎的系统结构

            一直以来对搜索引擎很有兴趣,但杂事繁多,不能定下心来好好学学这方面。现在正值毕业阶段,有家公司正好想做搜索引擎,顿时挑起了我的兴趣,很想用ASP.NET自己实现一个。如果有志同道合的朋友请加我MSN:xbfu@asiatom.com(原留QQ因糊涂而被骗),大家多交流交流。
            在网上查了不少搜索引擎的资料,发现搜索引擎还真的是牵涉到不少技术,纷繁复杂。看了一些后,对关于搜索引擎体系结构方面的东西做个整理。
            搜索引擎大体上可分为三类:全文检索搜索引擎、目录搜索引擎和元搜索引擎。具体不介绍了,主要是全文检索搜索引擎,它可称是严格意义上的搜索引擎。我主要还是学习这种类型的搜索引擎。
    全文检索搜索引擎的实现原理,可以看作四步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索→对搜索结果进行处理和排序。
            具体地说这个过程是这样的。"网络蜘蛛"(一个能自动从互联网上收集网页,并沿URL"爬行"的程序)从互联网上抓取网页,把网页送入"网页数据库",从网页中"提取URL",把URL送入"URL数据库","蜘蛛控制"得到网页的URL,控制"网络蜘蛛"抓取其它网页,反复循环直到把所有的网页抓取完成。系统从"网页数据库"中得到文本信息,送入"文本索引"模块建立索引,形成"索引数据库"。同时进行"链接信息提取",把链接信息(包括锚文本、链接本身等信息)送入"链接数据库",为"网页评级"提供依据。"用户"通过提交查询请求给"查询服务器",服务器在"索引数据库"中进行相关网页的查找,同时"网页评级"把查询请求和链接信息结合起来对搜索结果进行相关度的评价,通过"查询服务器"按照相关度进行排序,并提取关键词的内容摘要,组织最后的页面返回给"用户"。
            以上这些可以让我们了解一个搜索引擎的整体结构了,接下来是动手时间了哦
            2005年12月16日14:33:08
  • 相关阅读:
    MySQL关于check约束无效的解决办法
    关于constraint的用法
    MySQL关于Duplicate entry '1' for key 'PRIMARY'错误
    iOS实现高斯模糊效果(Swift版本)
    iOS获取视频中的指定帧的两种方法
    Java关于e.printStackTrace()介绍
    iOS关于JSONKit解析Unicode字符内容出错,问题出在u0000
    Java转型(向上转型和向下转型)
    添加删除Windows组件里没有IIS(Internet信息服务)项的解决方法
    Windows2003:“无法加载安装程序库wbemupgd.dll
  • 原文地址:https://www.cnblogs.com/fxb248/p/298497.html
Copyright © 2011-2022 走看看