zoukankan      html  css  js  c++  java
  • python的爬虫

    requests库的安装

    https://blog.csdn.net/xiaokuang5020/article/details/80580631

    Response对象属性

    属性                          说明

    r.status_code              HTTP请求的返回状态,200表示连接成功,404表示失败

    r.text                  HTTP响应内容的字符串形式,即,url对应的页面内容

    r.encoding                从HTTP Header中猜测的响应内容编码方式

    r.apparent_encoding                     从内容中分析出的响应内容编码方式(备选编码方式)

    r.content                HTTP响应内容的二进制形式

     Requests库的7个主要方法

    方法                          说明

    requests.request( )                  构造一个请求,支撑以下各方法的基础方法

    requests.get()                                          获取HTML网页的主要方法,对应于HTTP的GET

    requests.head()                    获取HTML网页头信息的方法,对应于HTTP的HEAD

    requests.post( )                    向HTML网页提交POST请求的方法,对应于HTTP的POST              

    requests.put( )                    向HTML网页提交PUT请求的方法,对应于HTTP的PUT

    requests. patch()                   向HTML网页提交局部修改请求,对应于HTTP的PATCH

    requests.delete( )                   向HTML页面提交删除请求,对应于HTTP的DELETE

    PS:

    HTTP协议

    HTTP:Hypertext  Transfer     Protocol   , 超文本传输协议

    HTTP是一个基于"请求与响应"模式的, 无状态的应用层协议

    HTTP协议采用URL作为定位网络资源的标识,URL格式如下:

            http://host[:port][path]

         host:合法的Internet主机域名或IP地址

         port:端口号,缺省端口为80

         path:请求资源的路径

    HTTP URL实例:

        http://www.baidu.com

        http://220.181.111.188/duty

    HTTP URL的理解

      URL是通过HTTP协议存取资源的Internet路径 , 一个URL对应一个数据资源

    HTTP协议对资源的操作

    方法                说明

    GET        请求获取URL位置的资源

    HEAD       请求获取URL位置资源的响应消息报告,即获得该资源的头部信息

    POST          请求向URL位置的资源后附加新的数据

    PUT          请求向URL位置存储一个资源,覆盖原URL位置的资源

    PATCH        请求局部更新URL位置的资源,即改变该处资源的部分内容

    DELETE         请求删除URL位置存储的资源

    PATCH和PUT的区别

    PATCH 仅向URL提交局部更新的要求

    PUT必须将所有资源更新

    PATCH的最主要好处:节省网络带宽

    Requests库的异常

     异常                            说明

    requests.ConnectionError                网络连接错误异常,如DNS查询失败,拒绝连接等

    requests.HTTPError                    HTTP错误异常

    requests.URLRequired                  URL缺失异常

    requests.TooManyRedirects               超过最大重定向次数,产生重定向异常

    requests.ConnectTimeout                

    requests.Timeout                  

     

    1. request.get()

     

     

    requests.get( url ,  params = None , ** Kwargs)

    url            : 拟获取页面的url链接

    params    : url中的额外参数,字典或字节流格式,可选

    **Kwargs : 12个控制访问的参数

    2.requests.request(method , url , **kwargs)

    method:请求方式,对应get/put/post等7种

    url   拟获取页面的url链接

    **kwargs 控制访问的参数,共12个

    method :请求方式

      r = requests.request('GET' , url  , **kwargs)

      r = requests.request('HEAD' , url , **kwargs)

      r = requests.request('POST' , url , **kwargs)

      r = requests.request('PUT' , url , **kwargs)

      r = requests.request('PATCH' , url , **kwargs)

      r = requests.request('DELETE' , url , **kwargs)

      r = requests.request('OPTIONS' , url , **kwargs)

    **kwargs :控制访问的参数 ,均为可选项

      params : 字典或字节排列 , 作为参数增加到url中

      data        字典.字节序列或文件对象,作为Request的内容

      json        JSON格式的数据,作为Request的内容

      headers  字典。HTTP定制头

      cookies   字典或CookieJar , Request中的cookie

      auth        元组,支持HTTP认证功能

      files         字典类型,传输文件

      timeout  设定超时时间,秒为单位

      proxies   字典类型,设定访问代理服务器,可以增加登录认证

      allow_redirects  True/False ,默认为True , 重定向开关

      stream   True/False , 默认为True , 获取内容立即下载开关

      verify      True/False, 默认为True, 认证SSL证书开关

      cert       本地SSL证书路径

    3.requests.head(url , ** kwargs)

    url   拟获取页面的url链接

    **kwargs 控制访问的参数,共12个

    4.requests.post(url , data = None , json = None , **kwargs  )

    url   拟获取页面的url链接

    data        字典.字节序列或文件 , Request的内容

    json         JSON格式的数据,Request的内容

    **kwargs 控制访问的参数,共12个

    5.requests.put(url , data=None , ** kwargs)

    url   拟获取页面的url链接

    data        字典.字节序列或文件 , Request的内容

    **kwargs 控制访问的参数,共12个

    6.requests.patch(url , data=None , ** kwargs)

    url   拟获取页面的url链接

    data        字典.字节序列或文件 , Request的内容

    **kwargs 控制访问的参数,共12个

    7..requests.delete(url , ** kwargs)

    url   拟获取页面的url链接

    **kwargs 控制访问的参数,共12个

  • 相关阅读:
    .Net常识 值类型和引用类型
    .net 开发人员的瓶颈和职业发展
    PPT Garbage Collection in .Net (内存管理)
    Why Sessionless Web Application ?
    一些.Net面试题 (BS 方向)
    开源一个小类库, 用于对象间灵活的拷贝属性,还有IDataReader到实体类的转换
    在 Visual Studio 单元测试中使用CallContext 导致的 Unit Test Adapter threw exception: Type is not resolved for member... 异常
    【设计原则和建议】 类
    轻量级 Lock Free 线程安全的 Queue<T> 的C#2.0实现
    实验一 命令解释程序的编写
  • 原文地址:https://www.cnblogs.com/cai-dreamstart/p/9807367.html
Copyright © 2011-2022 走看看