zoukankan html css js c++ java

01-urllib库添加headers的一般方法

2018-08-23 13:07:57

对于请求一些网站，我们需要加上请求头才可以完成网页的抓取，不然会得到一些错误，无法返回抓取的网页。下面，介绍两种添加请求头的方法。

方法一：借助build_opener和addheaders完成

1 import urllib.request
2 url="http://www.meizitu.com"
3 #注意：在urllib 中headers是元组
4 headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE")
5 
6 opener=urllib.request.build_opener()
7 opener.addheaders=[headers]
8 data=opener.open(url)
9 print(data.read())

注意：此处的headers要写为一个元组类型才可以。写为字典类型的话会报错！

方法二、创建一个Request实例对象

 1 # 案例1
 2 import urllib.request
 3 url="http://www.meizitu.com"
 4 #注意：在urllib 中这种的headers 是需要是字典的
 5 headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE"}
 6 req=urllib.request.Request(url=url,headers=headers)
 7 file=urllib.request.urlopen(req)
 8 
 9 #出现有些解码错误的话，加上“ignore”就可以啦
10 print(file.read().decode("utf-8",'ignore'))

注意：此处的headers要写为一个字典类型才可以。
创建一个Reques对象，把需要的headers,url，proxy 都放进去，或者在post 请求中还可以把编码过后的data 值放进去，再用urlopen 打开，就比较方便了。

另外，这种方法还可以用add_headers（）来添加headers，代码如下：

 1 import urllib.request
 2 try:
 3     url="http://www.meizitu.com"
 4     
 5     req=urllib.request.Request(url=url)
 6  
 7     req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE")
 8     file=urllib.request.urlopen(req,timeout=10.1)
 9 
10     print(file.read().decode("utf-8",'ignore'))
11 except Exception as e:
12     print("时间超时",str(e))

总结：通过以上两种方法，可以完成请求头的相关参数设置，但是得注意headers是用字典类型来传入还是元组类型。

查看全文

相关阅读:
HDU 5273 区间DP
【管理心得之八】通过现象看本质，小王和小张谁更胜任？
【Unity 3D】学习笔记四十二：粒子特效
 linux kernel的cmdline參数解析原理分析
 adoquery.refresh和adoquery.query的区别
 Delphi中的Sender：TObject对象解析
 ADODataSet与ADOQuery的区别
 visual studio 和 sql server 的激活密钥序列号
 修改VCL源码实现自定义输入对话框
 WINFORM 多条件动态查询通用代码的设计与实现

原文地址：https://www.cnblogs.com/jiyongjia/p/9523208.html