zoukankan      html  css  js  c++  java
  • Website蝴蝶结构

    Website蝴蝶结构

      网页的其正向链接连结在一起表现为一种蝴蝶结结构。

      

      1、蝴蝶结中部(SCC, Strongly Connected Componnet)

        这种网页彼此相连。

      2、蝴蝶结左部(IN)

        导航页居多,通过这类网页,可以正向链接到SCC。

      3、蝴蝶结右部(OUT)

        权威性网页,因为大多数SCC都链接向了这些站点。

      4、蝴蝶结的须脚(Tendrils)

        无论采用何种方法都只能遍历有限的网页。

      所以,scrawler尽量选择IN部分的网页,另外可以看出,正向链接远大于反向链接的网页,就是权威网页。

    Website直径

      从网页A链接到网页B所需要的最少点击次数(即链接次数)称为A到B的最短路径。网络上所有的(u,v)网页对所构造的最短路径的平均值即为Web直径。根据计算,这个直径大概为17左右。

      网页出度,是一个网页所有的正向链接的个数。平均网页出席,即为所有网页出度的平均值,这个值大概为25-26左右。

      上面可以看到网络结构并非一个深度结构,而是一个较宽的结构。所以在构造scrawler时,多采用BFS。另外,可以根据网络直径,来进行有效的DFS,防止一条道走到黑。

    网络的特征

      就像人口是在变化中稳定一样,网页数量也是一样。每天有大量的网页产生,每天也有大量的网页消失。大约23%的网页是每天更新,其中40%的.com网页每天更新。网页的半衰期为10天。

  • 相关阅读:
    一步一步CCNA之二:路由器特权模式
    uncompress bz2
    Protothreads Lightweight, Stackless Threads in C
    sohu的正版美剧都挺不错的
    Ebot crawler
    大数据时代的创新者们
    technology company
    slogan
    娱乐新闻都怎么搞的,真不给力啊
    售楼小姐比较漂亮
  • 原文地址:https://www.cnblogs.com/tekkaman/p/3390774.html
Copyright © 2011-2022 走看看