zoukankan      html  css  js  c++  java
  • 爬虫---入门

    四步:

    1.发起请求

    1.1会使用浏览器的调试

    1。通常第一个都是文档形式,就是网页的源代码

    2。get直接请求而post要构建表单,这个fromdata就会加到请求体中键值对

    3。url编码,如果想看url中%数据,就去解码,当然想要在url中加数据就要url编码

    4。请求头,也是键值对,放到字典中,注意都是字符串。最后加到httprequest中。有的网站,get请求如果没有头就会返回错误。

    5。当解析第一个文档时,解析的时候就会重新发起一次请求,这时你要从下面的xhr中,一个一个找到你的数据。

    1.2request包含四部分

    2.响应内容

    2.1response包含三部分

    2.2set_cookies  响应体中一个很重要的部分

    2.3响应体中就是我们 想要的东西

     可以是json,可以是js代码,可以是html代码,可以是图片,视频,音频。。

    一般来说:.content返回的是二进制数据的也就是我们所说的图片,.text返回的是响应体的内容

    3.解析内容

     

    4.保存数据

    图片:

     5.js渲染

    分析ajax:ajax技术的核心是XMLHttpRequest对象(简称XHR)

    用webdriver

  • 相关阅读:
    【作业4】测试作业-兴趣问题清单
    【读后感3】高效程序员的45个习惯
    【作业3】关于C语言的问卷调查
    【作业2】价值观作业
    Spring的零配置
    Spring容器中bean的作用域
    Spring注入方式
    Spring整合Struts2
    my first go
    Struts2对ajax的支持
  • 原文地址:https://www.cnblogs.com/BlueFire-py/p/8762644.html
Copyright © 2011-2022 走看看