zoukankan      html  css  js  c++  java
  • Python requests 模块

    Python requests 模块

      requests 模块是我们使用的 python爬虫 模块 可以完成市场进80%的爬虫需求。

    安装

    • pip install requests

    使用

    requests模块代码编写的流程:

    • - 指定url
    • - 发起请求
    • - 获取响应对象中的数据
    • - 持久化存储
    -------------案例-------------------------
    import requests
    # 指定url
    url="https://www.sogou.com/"
    # 发起请求
    response = requests.get(url)
    # 获取响应对象中的数据
    page_text = response.text
    # 持久化存储
    with open('./sogou.html','w',encoding='utf-8') as fp:
        fp.write()
    -------------------------------------------

    参数

    # post 数据
    response = requests.post(url=url,data=data,headers=headers)
    
    # get 数据
    response = requests.get(url=url,data=data,headers=headers)
    
    # 返回二进制数据
    response.content  
    
    # 返回字符串数据    
    response.text    
    
    # 返回json对象     
    response.json()       

    其他了解

    1、该模块实现爬取数据前需要查找需要爬取数据的指定URL,可通过浏览器自带抓包功能。

    # 浏览器抓取 Ajax 请求
    F12 --> Network --> XHR --> Name --> Response

    2、上面的headers参数是进行UA伪装为了反反爬

    反爬机制:UA检测 --> UA伪装

    3、下面是http我们爬包是常用的请求头参数

      - accept: 浏览器通过这个头告诉服务器,他所支持的数据类型
      
    - Accept-Charset:浏览器通过这个头告诉服务器,它支持那种字符集
      
    - Accept-Encoding:浏览器通过这个头告诉服务器,支持的压缩格式
      
    - Accept-Language:浏览器通过这个头告诉服务器,他的语言环境
      
    - Host:浏览器同过这个头告诉服务器,想访问哪台主机
      
    - If-ModifiedSince:浏览器通过这个头告诉服务器,缓存数据的时间
      
    - Heferer:浏览器通过这个头告诉服务器,客户及时那个页面来的,防盗链
      
    - Connection:浏览器通过这个头告诉服务器,请求完后是断开链接还是保持链接
      
    - X-Requested-With:XMLHttpRequest 代表通过ajax方式进行访问
      
    - User-Agent:请求载体的身份标识

    持续跟进...

  • 相关阅读:
    java数据库编程之DAO模式
    java数据库编程之JDBC
    java数据库编程之初始Mysql
    java数据库编程之常用的操作用户和赋权限
    java数据库编程之事务、视图、索引、备份、恢复
    java数据库编程之嵌套子查询及exists的使用
    .net窗体程序的基础知识及详细笔记
    sql sever 基础知识及详细笔记
    java基础知识及详细笔记
    计算机基础知识及笔记
  • 原文地址:https://www.cnblogs.com/xiangsikai/p/11251530.html
Copyright © 2011-2022 走看看