zoukankan      html  css  js  c++  java
  • 3.4 网页分析算法

    在搜索引擎中,爬虫爬取了对应的网页之后,会将网页存储到服务器的原始数据库中,之后
    搜索引擎会对这些网页进行分析并确定各网页的重要性,即会影响用户的检索的排名结果。
    对于这些重要性的确定及排名结果的确定需要算法来解决,所以先来了解一下算法。

    搜索引擎的网页分析算法主要分为3类:基于用户行为的网页分析算法、基于网络拓扑的
    网页分析算法、基于网页内容的网页分析算法。接下来我们分别对这些算法进行讲解。

    搜索引擎的网页分析算法主要分为3类:基于用户行为的网页分析算法、基于网络拓扑的网页
    网页分析算法、基于网页内容的网页分析算法。

    1 基于用户行为的网页分析算法

    这种算法中,会依据用户对这些网页的访问行为,对这些网页进行评价,比如,依据用户对
    该网页的访问频率、用户对网页的访问时长、用户的单击率等信息对网页进行综合评价。

    2 基于网络拓扑的网页分析算法

    基于网络拓扑的网页分析算法是依靠网页的链接关系、结构关系、已知网页或数据等对网页
    进行分析的一种算法,所谓拓扑,简单来说即结构关系的意思。基于网络拓扑的网页分析
    算法,同样主要可以细分为3种类型:基于网页粒度的分析算法、基于网页块粒度的分析算
    法、基于网站粒度的分析算法。

    PageRank算法是一种比较典型的基于网页粒度的分析算法。它是谷歌搜索引擎的核心算法,
    简单来说,它会根据网页之间的链接关系对网页的权重进行计算,并可以依靠这些计算出来
    的权重,对网页进行排名。具体的算法细节有很多,在下也不懂。除了PageRank算法之外,
    HITS算法也是一种常见的基于网页粒度的分析算法。

    基于网页块粒度的分析算法,也是依靠网页间链接关系进行计算的,但计算规则有所不同。
    我们知道,在一个网页中通常会包含多个超链接,但一般其指向的外部链接中并不是所有的
    链接都与网站主题相关,或者说,这些外部链接对该网页的重要程度是不一样的,所以若要
    基于网页块粒度进行分析,则需要对一个网页中的这些外部链接划分层次,不同层次的外部
    链接对于该网页来说,其重要程度不同。这种算法的分析效率和准确率,会比传统的算法好
    一些。

    基于网页粒度的分析算法,也与pagerank算法类似。而基于网站粒度进行分析,相应的,会
    使用siterank算法。即此时我们会划分站点的层次和等级,而不再具体的计算站点下的各个
    网页的等级。所以其相对于基于网页粒度的算法来说,则更加简单高效,但是会带来一些缺
    点,比如精确度不如基于网页粒度的分析算法精确。


    3 基于网页内容的网页分析算法
    在基于网页内容的网页分析算法中,会依据网页的数据、文本等网页内容特征,对网页进行相
    应的评价。

    高手们如果有算法的具体介绍的文章,孩请分享,谢谢爬爬!

  • 相关阅读:
    va_start、va_end、va_list的使用
    UNIX环境高级编程 apue.h头文件的配置
    Ant编译android程序
    Shell编程中Shift的用法
    命令生成和运行android项目
    ubuntu rar文件解压中文乱码问题
    SQLite区分大小写查询
    java命令执行jar包的方式
    ubuntu下安装与卸载软件方法
    linux下查看最后登陆的用户的信息
  • 原文地址:https://www.cnblogs.com/papapython/p/7461983.html
Copyright © 2011-2022 走看看