准备写一个python脚本抓取网页数据,前面抓了几个都没有什么问题,但总会抓取不完整,在中间过程中没有反应,发现执行urlopen的地方总是提示超时,百度了一下,因为我使用的是urllib不是urllib2,所以无法直接在urlopen里面加timeout参数,只能是设置全局脚本的超时时间
首先:
import socket
然后:
socket.setdefaulttimeout(60)
设置全局的超时时间为60s。
之后再执行脚本的时候就没有什么大问题了。
当然,如果是urllib2就更简单,而且现实中,urllib,urllib2常会一起使用(两者分别提供不同的功能)
html = urllib.urlopen(url).read()
修改为
import urllib2
html = urllib2.urlopen(url, timeout=60).read()