Requests是Python的一个很实用的HTTP客户端库。
与Urllib对比,Requests不仅具备Urllib的全部功能;在开发使用上,语法简单易懂,完全符合Python优雅、简洁的特性;在兼容性上,完全兼容Python2和Python3,具有较强的适用性。
安装
Requests可通过pip安装,还可以下载whl文件安装。
pip 是 Python 包管理工具,该工具提供了对Python 包的查找、下载、安装、卸载的功能; whl格式本质上是一个压缩包,里面包含了py文件,以及经过编译的pyd文件
请求方式
HTTP的常用请求是GET和POST,Requests对此区分两种不同的请求方式。
GET请求有两种形式,分别是不带参数和带参数,以百度为例:
#不带参数 https://www.baidu.com/ #带参数wd
https://www.baidu.com/s?wd=python
判断URL是否带有参数,可以对符号“?”判断。一般网址末端(域名)带有“?”,就说明该URL是带有请求参数的,反之则不带有参数。
GET参数说明如下:
(1)wd是参数名,参数名由网站(服务器)规定。
(2)python是参数值,可由用户自行设置。
(3)如果一个URL有多个参数,参数之间用“&”连接。
Requests实现GET请求,对于带参数的URL有两种请求方式:
import requests #第一种方式 r=requests.get('https://www.baidu.com/s?wd=python') #第二种方式 url='https://www.baidu.com/s' params={'wd':'python'}#左边params在GET请求中表示设置参数 r=requests.get(url,params=params) #输出生成的URL print(r.url)
两种方式都是请求同一个URL,在实际开发中建议使用第一种方式,因为代码简洁,如果参数是动态变化的,那么可使用字符串格式化对URL动态设置,例如htps://www.baidu.com/s?wd=os'%(python)。
POST请求是我们常说的提交表单,表单的数据内容就是POST的请求参数。
Requests实现POST 请求需设置请求参数data,数据格式可以为字典、元组、列表和JSON格式,不同的数据格式有不同的优势。代码如下:
#字典类型 data={'key1':'valuel','key2':'value2'} #元组或列表 ((’key1','value1'),('key1','value2')) #JSON import json data={'key1':'valuel','key2':'value2'} #将字典转换JSON data=json.dumps(data) #发送POST请求 r=requests.post("https://www.baidu.com/",data=data) print(r.text)
可以看出,左边的data是POST方法的参数,右边的data是发送请求到网站(服务器)的数据。
值得注意的是,Requests的GET和POST方法的请求参数分别是params和data,别混淆两者的使用要求。
当向网站(服务器)发送请求时,网站会返回相应的响应(response)对象,包含服务器响应的信息。Requests提供以下方法获取响应内容。
r.status_code:响应状态码。
r.raw:原始响应体,使用r.raw.read()读取。
r.content:字节方式的响应体,需要进行解码。
r.text:字符串方式的响应体,会自动根据响应头部的字符编码进行解码。
r.headers:以字典对象存储服务器响应头,但是这个字典比较特殊,字典键不区分大小写,若键不存在,则返回None。
r.json():Requests中内置的JSON解码器。
r.raise for status():请求失败(非200响应),抛出异常。
r.url:获取请求链接。
r.cookies:获取请求后的cookies。
r.encoding:获取编码格式。
进一步的请求方式
复杂的请求方式通常有请求头、代理IP、证书验证和Cookies等功能。
Requests将这一系列复杂的请求做了简化,将这些功能在发送请求中以参数的形式传递并作用到请求中。
(1)添加请求头:请求头以字典的形式生成,然后发送请求中设置的headers参数,指向已定义的请求头,代码如下:
headers={ 'content-type':'application/json',
User-Agent':'Mozilla/5.0(Windows NT 6.3;WOW64;rV:41.0)Gecko/20100101 Firefox/41.0'} requests.get("https://www.baidu.com/",headers=headers)
(2)使用代理IP:代理IP的使用方法与请求头的使用方法一致,设置proxies参数即可,代码如下:
import requests proxies={ "http":"http://10.10.1.10:3128", "https":"http://10.10.1.10:1080",
}
requests.get("https://www.baidu.com/",proxies=proxies)
(3)证书验证:通常设置关闭验证即可。在请求设置参数verify=False时就能关闭证书的验证,默认情况下是True。如果需要设置证书文件,那么可以设置参数verify值为证书路径。
import requests url='https://kyfw.12306.cn/otn/leftTicket/init' #关闭证书验证 r=requests.get(url,verify=False) print(r.status code) #开启证书验证 #r=requests.get(url,verify=True) #设置证书所在路径 #r=requests.get(url,verify=1/path/to/certfile')
(4)超时设置:发送请求后,由于网络、服务器等因素,请求到获得响应会有一个时间差。
如果不想程序等待时间过长或者延长等待时间,可以设定timeout的等待秒数,超过这个时间之后停止等待响应。如果服务器在timeout秒内没有应答,将会引发一个异常。使用代码如下:
requests.get("https://www.baidu.com/",timeout=0.001) requests.post("https://www.baidu.com/",timeout=0.001)
(5)使用Cookies:在请求过程中使用Cookies 也只需设置参数Cookies即可。Cookies的作用是标识用户身份,在Requests中以字典或RequestsCookieJar对象作为参数。获取方式主要是从浏览器读取和程序运行所产生。下面的例子进一步讲解如何使用Cookies,代码如下:
import requests temp cookies='JSESSIONID GDS=y4p7oSFr IYV5Udyd6c1drWE8MeTpQn0Y58Tg8cCONVPO 20y2N!450649273;name=value' cookies dict={} for i in temp cookies.split(';'):value=i.split('=') cookies dict[value[0]]=value[1] r=requests.get(url,cookies=cookies) print(r.text)
代码中变量temp_cookies是Cookies信息,可以在Chrome开发者工具一Network→某请求的Headers→Request Headers 中找到Cookie所对应的值。然后将字符串转换成字典格式,转换规则主要执行两次分割:第一次以“;”分割,得到列表A,第二次是列表A的每一个元素以“=”分割,得到字典的键值对。
当程序发送请求时(不设参数cookies),会自动生成一个RequestsCookieJar对象,该对象用于存放Cookies信息。Requests提供RequestsCookieJar对象和字典对象的相互转换,代码如下:
import requests
url='https://movie.douban.com/'
r=requests.get(url)
#r.cookies是RequestsCookieJar对象
print(r.cookies)
mycookies=r.cookies
#RequestsCookieJar转换字典
cookies dict=requests.utils.dict from cookiejar(mycookies)
print(cookies dict)
#字典转换RequestscookieJar cookies jar=requests.utils.cookiejar from dict(cookies dict,cookiejar=None,overwrite=True)
print(cookies jar)
#在RequestsCookieJar 对象添加 Cookies字典中print(requests.utils.add dict to cookiejar(mycookies,cookies dict))
如果要将Cookies写入文件,可使用http模块实现Cookies的读写。除此之外,还可以将Cookies以字典形式写入文件,此方法相比http模块读写Cookies更为简单,但安全性相对较低。使用方法如下:
(略)
下载与上传
下载文件主要从服务器获取文件内容,然后将内容保存到本地。下载文件的方法如下:
import requests ur1='https://www.python.org/static/img/python-1ogo.png' r=requests.get(url) f=open('python.jpg','wb') #r.content获取响应内容(字节流) f.write(r.content) f.close()
服务器将文件内容作为响应内容,然后将得到的内容以字节流(Bytes)格式写入自定义文件,这样就能实现文件下载。
除了文件下载外,还有更为复杂的文件上传,文件上传是将本地文件以字节流的方式上传到服务器,再由服务器接收上传内容,并做出相应的响应。文件上传存在一定的难度,其难点在于服务器接收规则不同,不同的网站接收的数据格式和数据内容会不一致。(略)