zoukankan      html  css  js  c++  java
  • 爬虫基本原理

    一、基本流程

      1.发起请求:通过HTTP库向目标站点发起请求,即发送一个request,请求可以包含额外的headers等信息,等待服务器响应

      2.解析内容:得到的内容可能是HTML,可以用正则表达式,网页解析库进行解析;可能是Json,可以直接转换为Json对象解析;可能是二进制数据,可以保存或者进一步处理

      3.获取响应内容:如果服务器能正常响应,会得到一个response,response的内容可能有HTML,Json字符串,二进制数据(图片、视频)等类型

      4.保存数据:可以保存为文本,也可以保存在数据库

    二、Request

      1.请求方式:

        (1)GET:请求的参数都在网址内

        (2)POST:不在网址内

      2.URL

      3.请求头:包含请求时的头部信息,如User-Agent、Host、Cookies等信息

      4.请求时额外携带的数据,如表单提交时的表单数据

    三、Response

    1. 响应状态:200为正常状态、404未找到页面
    2. 响应头:内容类型、长度、服务器信息、设置Cookie
    3. 响应体:包含HTML、图片二进制

     

      

  • 相关阅读:
    Traceroute侦测主机到目的主机之间所经路由情况的重要工具
    TCP/IP详解之IP协议
    Hello world
    [LeetCode] 198. 打家劫舍
    [LeetCode] 191. 位1的个数
    [LeetCode] 190. 颠倒二进制位
    python里的排序
    [LeetCode] 189. 旋转数组
    [LeetCode]187. 重复的DNA序列
    [LeetCode] 179. 最大数
  • 原文地址:https://www.cnblogs.com/yejiang/p/10293798.html
Copyright © 2011-2022 走看看