proxy的应用主要是由于多次爬虫时,可能造成服务器禁止访问等拒绝操作。使用代理,定时的更换ip,可以较好的避免这一现象。
代理的使用也较简单,建立一个代理类即可。本人使用的服务器网址: https://www.xicidaili.com/
import urllib.request,urllib.parse import urllib.error import http.cookiejar url='http://www.baidu.com' proxy=urllib.request.ProxyHandler({'http':'27.25.194.221:9999'})#从代理网站获取的免费代理ip opener=urllib.request.build_opener(proxy) try: response=opener.open(url) print(response.read().decode()) except urllib.error.URLError as e: print(e)
当然爬虫时,我们可以使用多个代理ip轮换爬虫来防止服务器拒绝操作。