zoukankan      html  css  js  c++  java
  • 爬虫技术 -- 基本学习(二)爬虫基本认知

      爬虫策略:

    网页抓取策略分为三种:深度优先、广度优先和最佳优先。

     

     爬虫的行为策略:

    (1)选择策略:选择要下载的页面。

    (2)重新访问策略:页面什么时候会更新。

    (3)并行策略:通过分布式抓取获得更好效果。

      爬虫的组成:

      在网络爬虫的系统框架中,主要由控制器、解析器、资源库三个部分组成。

    • 控制器:主要负责给多线程中的各个爬虫线程分配任务。
    • 解析器:主要是下载网页,进行网页处理。主要是将一些JS脚本标签、CSS代码内容、空格字符、HTML标签等内容处理掉。爬虫的基本工作时由解析器完成。
    • 资源库:用来存放下载到的网页资源,一般由大型数据库存储。

         URL一般化:

      URL一般化也称为URL标准化,主要是修正URL,来避免重复抓取某些资源。

  • 相关阅读:
    第二次作业
    初学JAVA的 感想 尹鑫磊
    初学JAVA 感想
    《将博客搬至CSDN》
    JAVA中的几种内部类
    JAVA-静态变量与实体变量
    teacher页面的代码
    测试说明书的概述和摘要
    网站的概述
    html与xhtml的区别
  • 原文地址:https://www.cnblogs.com/lmei/p/3463366.html
Copyright © 2011-2022 走看看