zoukankan      html  css  js  c++  java
  • python爬虫01在Chrome浏览器抓包

    尽量不要用国产浏览器,很多是有后门的

    chrome是首选

    百度

    按下F12

    element标签下对应的HTML代码

    点击Network,可以看到很多请求

    HTTP请求的方式有好几种,GET,POST,PUT,DELETE,HEAD,OPTIONS,TRACE

    不过最常见的就是GET和POST请求

    get:

    https://www.baidu.com/s?wd=内容

    post:

    信息提交 注册 登陆

    post的参数不会直接放在URL上,会以Form表单的形式将数据提交给服务器

    可以发现,

    GET请求把请求参数都暴露在URL上

    而POST请求的参数放在request body里面

    POST请求方式还对密码参数加了密

    请求头

    Pequest Header

    我们在做 HTTP 请求的时候

     

    除了提交一些参数之外

     

    我们还有定义一些 HTTP 请求的头部信息

     

    比如 Accept、Host、cookie、User-Agent等等

     

    这些参数也是我们在做爬虫要用到

     

    通过这些信息,欺骗服务器,告诉它我们是正规请求

     

    比如

     

    我们可以在代码里面设置 cookie 告诉服务器我们就是在这个浏览器请求的会话

     

    User-Agent 告诉服务器我们是浏览器请求的

    响应

    这些 404 啊,200啊,301啊,502啊

     

    都是服务器的响应码

     

    一般服务器给我们返回 200

     

    那就说明

     

    我们成功请求了

    响应头

    这个头主要是告诉我们数据以什么样的形式展现

     

    告诉我们cookie的设置

     

     

    响应体

     

    说白了,就是服务器返回给我们的数据

     

    我们点击 Response 就可以看到相关的数据了

    对于不同的请求

     

    我们获取到的数据是不一样的

     

    除了 HTML的,也有 JSON 的

     

    图片二进制数据等等

     

    可以针对不同的情况

     

    用不同的手段来解析这些数据



    所谓抓包

     

    就是我们摸清了浏览器里面的套路

     

    知道它是怎么搞的

     

    那么通过我们的请求

     

    GET 请求也好

     

    POST 请求也罢

     

    只要知道请求方式

     

    只要知道请求参数

     

    只要知道请求头定义

     

    只要知道怎么拿到返回的数据

  • 相关阅读:
    JEECG SSO kisso
    高级进程间通信之基于STREAMS的管道
    网络IPC:套接字之非阻塞和异步I/O
    网络IPC:套接字之带外数据
    网络IPC:套接字之套接字选项
    网络IPC:套接字之数据传输
    网络IPC:套接字之建立连接
    网络IPC:套接字之寻址
    网络IPC:套接字之套接字描述符
    网络IPC:套接字
  • 原文地址:https://www.cnblogs.com/hrnn/p/13304184.html
Copyright © 2011-2022 走看看