zoukankan      html  css  js  c++  java
  • 爬虫基本原理

    一、基本流程

      1.发起请求:通过HTTP库向目标站点发起请求,即发送一个request,请求可以包含额外的headers等信息,等待服务器响应

      2.解析内容:得到的内容可能是HTML,可以用正则表达式,网页解析库进行解析;可能是Json,可以直接转换为Json对象解析;可能是二进制数据,可以保存或者进一步处理

      3.获取响应内容:如果服务器能正常响应,会得到一个response,response的内容可能有HTML,Json字符串,二进制数据(图片、视频)等类型

      4.保存数据:可以保存为文本,也可以保存在数据库

    二、Request

      1.请求方式:

        (1)GET:请求的参数都在网址内

        (2)POST:不在网址内

      2.URL

      3.请求头:包含请求时的头部信息,如User-Agent、Host、Cookies等信息

      4.请求时额外携带的数据,如表单提交时的表单数据

    三、Response

    1. 响应状态:200为正常状态、404未找到页面
    2. 响应头:内容类型、长度、服务器信息、设置Cookie
    3. 响应体:包含HTML、图片二进制

     

      

  • 相关阅读:
    (转)extern用法详解
    (转)extern用法,全局变量与头文件
    关于将数字转换成中文表达程序
    不用对战平台玩魔兽
    结构体内存对齐问题(转)
    今天碰到的很奇怪的问题
    99乘法表
    自我检讨
    收支簿
    掠夺论
  • 原文地址:https://www.cnblogs.com/yejiang/p/10293798.html
Copyright © 2011-2022 走看看