zoukankan      html  css  js  c++  java
  • py爬虫 —— py爬虫requests

    安装requests库

    pip3 install requests

    使用 Requests 发送网络请求非常简单。

    一开始要导入 Requests 模块:

    import requests

    然后,尝试获取某个网页。本例子中,我们来获取 CSDN 的一篇博客 :

    r = requests.get("https://blog.csdn.net/acer12138")

    现在,我们有一个名为 r 的 Response 对象。我们可以从这个对象中获取所有我们想要的信息。

    Requests 简便的 API 意味着所有 HTTP 请求类型都是显而易见的。例如,你可以这样发送一个 HTTP POST 请求:

    r = requests.post('http://httpbin.org/post', data = {'key':'value'})

    Requests对HTTP资源的7种操作

    requests.put() #更新整个网页
    requests.get() #得到整个网页
    requests.post() #向网页尾添加信息
    requests.head() #得到网页的概要
    requests.patch() #修改部分网页
    requests.delete() #删除网页的信息

    request操作

    requests.request(method,url,**kwargs)

    method:新建Request对象要使用的HTTP方法,包括:GET,POST,PUT,DELETE等
    url:新建Request对象的URL链接
    **kwargs:13个控制访问的可选参数

    (1)params:字典或字节序列,作为参数增加到url中

    import requests
    url = 'http://www.baidu.com'
    data = {"key" : "value"}
    r = requests.request('get' ,url ,params = data)
    print(r.url)
    #结果是http://www.baidu.com/?key=valu

    (2)data:字典、字节序列,文件,作为Request对象body的内容

    #字典
    dataDicValue={'key1':'value1','key2':'value2'}
    r=requests.request('GET','http://www.baidu.com',data=dataDicValue)
    #字节序列
    dataStrValue='test'
    r=requests.request('GET','http://www.baidu.com',data=dataStrValue)
    #文件
    dataFileValue={'file':open('test.csv','rb')}
    r=requests.request('POST','http://www.baidu.com',data=dataFileValue)

    (3)json:JSON格式的数据,作为Request对象body的内容

    jsonValue={'key1':'value1','key2':'value2'}
    r=requests.request('POST','http://www.baidu.com',json=jsonValue)

    (4)headers:字典格式,HTTP请求头,作为Request对象Header的内容

    headerValue={'user-agent': 'Chrome/10'}
    r=requests.request('POST','http://www.baidu.com',headers=headerValue)
    print(r.headers)
    #{'Accept-Ranges': 'bytes', 'Cache-Control': 'max-age=86400', 'Connection': 'Keep-Alive', 'Content-Encoding': 'gzip', 'Content-Length': '4867', 'Content-Type': 'text/html', 'Date': 'Wed, 15 Aug 2018 10:22:42 GMT', 'Etag': '"3dcd-560eb5cea6700"', 'Expires': 'Thu, 16 Aug 2018 10:22:42 GMT', 'Last-Modified': 'Fri, 22 Dec 2017 10:34:36 GMT', 'P3p': 'CP=" OTI DSP COR IVA OUR IND COM "', 'Server': 'Apache', 'Set-Cookie': 'BAIDUID=6AE11C63536CF472F9B403B1BE467161:FG=1; expires=Thu, 15-Aug-19 10:22:42 GMT; max-age=31536000; path=/; domain=.baidu.com; version=1', 'Vary': 'Accept-Encoding,User-Agent'}

    (5)cookies:字典或CookieJar,Request中的cookie

    #字典
    cookieDicValue={'key1':'value1','key2':'value2'}
    r=requests.request('POST','http://www.baidu.com',cookies=cookieDicValue)
    print(r.cookies)
    #<RequestsCookieJar[]>
    #CookieJar
    cookiesJarValue=cookiejar.CookieJar()
    r=requests.request('POST','http://www.baidu.com',cookies=cookiesJarValue)
    print(r.cookies)
    #<RequestsCookieJar[]>

    (6)files:字典,形式为{filename: fileobject},表示要上传的多个部分

    filesValue = {'file': open('test.csv', 'rb')}
    r = requests.request('POST', 'http://www.baidu.com', files=filesValue)

    (7)auth:Auth 句柄或 (user, pass) 元组

    #Auth
    authBasicValue=HTTPBasicAuth('username','password')
    r = requests.request('POST', 'http://www.baidu.com', auth=authBasicValue)
    #(user,pass)元组
    authTupValue=('username','password')
    r=requests.request('POST','http://www.baidu.com',auth=authTupValue)

    (8)timeout:等待服务器数据的超时限制,是一个浮点数,或是一个(connect timeout, read timeout) 元组

    #浮点数(单位秒)
    timeoutFloatValue=12
    r=requests.request('POST','http://www.baidu.com',timeout=timeoutFloatValue)
    #(connect timeout, read timeout) 元组;
    #connect timeout:建立连接所用的时间;适用于网络状况正常的情况下,两端所用的时间
    #readtimeout:建立连接后从服务器读取到可用资源所用的时间;正常情况下,当我们发出请求时可以收到请求的结果,也就是页面上展示的内容,但是当网络状况很差的时候,就会出现页面上无法展示出内容的情况。另外当我们使用爬虫或者其他全自动的程序时,无法判断当前的网络状况是否良好,此时就有了ReadTimeout的用武之地了,通过设置ReadTimeout参数
    #注意:在我们使用需要设置这两项参数的服务或程序时,应该对两项参数一起设置。 一般而言两项参数的数值可以设置成一样的,但可以把ReadTimeout设置的长一点,ConnectTimeout可以相对比较短,这是源于我们的网络状况一般较为稳定,连接时很少出现问题,但是读取时因为数据下载时的网络波动,出状况的可能性更大一些。
    timeoutTupValue=(10,25)
    r=requests.request('POST','http://www.baidu.com',timeout=timeoutTupValue)

    (9)allow_redirects:True/False,默认为Ture,重定向开关,为True时表示允许POST/PUT/DELETE方法重定向

    #禁止重定向
    r=requests.request('POST','http://www.baidu.com',allow_redirects=False)

    (10)proxies:字典类型,用于将协议映射为代理的URL

    #以下是根据不同协议选择不同代理,也可以使用list+随机方式使用多个代理地址访问URL
    poxiesValue={'http':'xxx.xxx.xxx.xxx:xx','https':'xxx.xxx.xxx.xxx:xx'}
    r=requests.request('POST','http://www.baidu.com',poxies=poxiesValue)

    (11)verify:True/False,默认为True,认证SSL证书开关;为True时会验证SSL证书,也可以使用cert参数提供一个CA_BUNDLE路径;为False时,忽略SSL验证

    #忽略SSL验证
    r=requests.request('POST','http://www.baidu.com',varify=False)
    (12)stream:True/False,默认为True,获取body立即下载开关,为False会立即下载响应头和响应体;为True时会先下载响应头,当Reponse调用content方法时才下载响应体
    # stream为True时下载步骤
    #stream设置为True,直接下载响应头
    r=requests.request('POST','http://www.baidu.com',stream=True)
    #调用content方法下载响应体
    r.content

    (13)cert:为字符串时应是 SSL 客户端证书文件的路径(.pem格式,文件路径包含密钥和证书),如果是元组,就应该是一个(‘cert’, ‘key’) 二元值对

    #文件路径
    requests.request('POST','http://www.baidu.com',cert='/True_path/server.pem')
    #元组
    certTupValue=('/value/value.cert','/value/key')
    requests.request('POST','http://www.baidu.com',cert=certTupValue)

    来源

  • 相关阅读:
    配置nova服务使用ceph作为后端存储
    配置glance使用ceph作为后端存储
    配置nova-compute在不同的hypervisors上使用不同的存储后端
    配置cinder-backup服务使用ceph作为后端存储
    配置cinder-volume服务使用ceph作为后端存储
    安装cinder
    利用ceph-deploy安装ceph
    安装neutron
    安装nova
    安装glance
  • 原文地址:https://www.cnblogs.com/Nlifea/p/11799997.html
Copyright © 2011-2022 走看看