zoukankan      html  css  js  c++  java
  • Python爬虫之爬虫原理

    主要知识点:

               网络连接:

                       根据图2.1我们可以知道计算器通过向服务器发送Request请求,可以得到相应的Response。其中Request包括请求头和消息体,Response包括html文件。其实计算机的一次Request请求和服务器的一次应答就是网络连接的体现。

                      其中我们可以把计算机比作向商店购买产品的消费者,当消费者去商店购买产品离开时,他应该给结账员自己所购买的商品的硬币,其中硬币可类比于请求头,商品可类似于消息体。而结账员就相当于服务器。经过结账源处理后,消费者可以得到所购买的产品,即Response。

                     request和response详解

               爬虫原理:

                     通过对网络连接的简单了解,我们可以归纳出爬虫就是模拟计算机对服务器发起Request请求,得到服务器端的Request内容并解析提取对自己有用的信息。由于互联网错综复杂,一次简单的模拟网络连接不能批量的获取网页数据。因此就出现了多页面和跨页面爬虫流程。

    1.多页面网页爬虫流程

    有的网页存在多页的情况时,每个网页结构都相同或者类似,这种类型的网页爬虫流程为:

    1.手动翻页并观察各页面的的URL构成特变,构造出所有页面的URL存入列表

    2.根据URL列表依次循环取出URL。

    3.定义爬虫函数。

    4.循环调用爬虫函数,存储数据

    5.循环完毕,结束爬虫。

    2.跨页面爬虫流程

     

    跨页面的爬虫流程:

    1.定义爬取函数爬取列表页的所有专题的URL

    2.将专题URL存入列表中。

    3.定义爬取详细页数据函数

    4.进入专题详细页面爬取详细函数。

    5.存储数据,循环完毕,结束爬虫。

     

     

     

     

     

               

  • 相关阅读:
    Java中Properties类的操作
    Java中Properties类的使用
    properties类的基本使用方法
    java.util.ResourceBundle使用详解
    java.util.ResourceBundle 用法小介
    java.util.Date和java.sql.Date的区别和相互转化
    response.setHeader()的用法
    Fiddler (二) Script 用法
    HTTP协议 (七) Cookie
    HTTP协议 (六) 状态码详解
  • 原文地址:https://www.cnblogs.com/gaochunhui/p/11271141.html
Copyright © 2011-2022 走看看