zoukankan      html  css  js  c++  java
  • 爬虫---入门

    四步:

    1.发起请求

    1.1会使用浏览器的调试

    1。通常第一个都是文档形式,就是网页的源代码

    2。get直接请求而post要构建表单,这个fromdata就会加到请求体中键值对

    3。url编码,如果想看url中%数据,就去解码,当然想要在url中加数据就要url编码

    4。请求头,也是键值对,放到字典中,注意都是字符串。最后加到httprequest中。有的网站,get请求如果没有头就会返回错误。

    5。当解析第一个文档时,解析的时候就会重新发起一次请求,这时你要从下面的xhr中,一个一个找到你的数据。

    1.2request包含四部分

    2.响应内容

    2.1response包含三部分

    2.2set_cookies  响应体中一个很重要的部分

    2.3响应体中就是我们 想要的东西

     可以是json,可以是js代码,可以是html代码,可以是图片,视频,音频。。

    一般来说:.content返回的是二进制数据的也就是我们所说的图片,.text返回的是响应体的内容

    3.解析内容

     

    4.保存数据

    图片:

     5.js渲染

    分析ajax:ajax技术的核心是XMLHttpRequest对象(简称XHR)

    用webdriver

  • 相关阅读:
    vue基础04计算属性
    vue基础01条件渲染
    vue基础14vuex
    其他03动态拼接地址,使用本地的图片不显示
    其他05vue中ref
    HTML基础02CSS
    其他12es6...运算符
    其他11依赖注入
    其他07插槽
    其他06js类型判断
  • 原文地址:https://www.cnblogs.com/BlueFire-py/p/8762644.html
Copyright © 2011-2022 走看看