zoukankan      html  css  js  c++  java
  • 网络爬虫-理解

    网络爬虫讲解地址:http://blog.csdn.net/luojinping/article/details/6870898

      对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右

    1.抓取技术的瓶颈:无法遍历所有的网页,有许多网页无法从其它网页的链接中找到

    2.存储技术和处理技术的问题(容量和带宽)

    3.效率。

      网络爬虫只要策略

    广度优先(层级抓取)
    深度优先(单个抓取)

      网络爬虫可能会遇到的问题

    1.访问权限
    2.扒与被扒的数据服务器负担
    3.遵循robots.txt协议
    4.内容帅选,跟踪(无意义的页面,图片,文件,广告,多媒体,公共频道等)
    5.动态页面
    6.更新周期
    7.循环抓取,访问遗漏

      主要架构

    一个典型的网络蜘蛛工作的方式:查看一个页面,并从中找到相关信息,然后它再从该页面的所有链接中出发,继续寻找相关的信息,以此类推。

    网络蜘蛛在搜索引擎整体结构中的位置如下图所示: 初始化时,网络蜘蛛一般指向一个URL ( Uniform ResourceLocator)池。在遍历Internet的过程中,按照深度优先或广度优先或其他启发式算法从URL池中取出若干URL进行处理,同时将未访问的 URL放入URL池中,这样处理直到URL池空为止。对Web文档的索引则根据文档的标题、首段落甚至整个页面内容进行,这取决于搜索服务的数据收集策略。

  • 相关阅读:
    解决response在controller返回乱码的解决方式
    Injection of autowired dependencies failed;错误解决
    sql mybatis 使用concat乱码
    【算法基础】欧几里得gcd求最大公约数
    sql视图和表的区别
    在idea下创建maven
    Arrays.sort()自定义排序
    数组
    java 遍历数组
    抽象与接口
  • 原文地址:https://www.cnblogs.com/hwaggLee/p/4920911.html
Copyright © 2011-2022 走看看