这里,提供一个代理服务器爬取百度的例子:
最后返回爬取数据的长度
1 import urllib.request 2 3 #代理函数 设置代理ip (代理ip在www.xicidaili.com网站免费提供,部分ip无效) 4 #urlopen不支持 5 def use_proxy(url,peoxy_addr): 6 proxy=urllib.request.ProxyHandler({"http":proxy_addr}) 7 opener=urllib.request.build_opener(proxy,urllib.request.HTTPHandler) 8 #添加全局 9 urllib.request.install_opener(opener) 10 #打开网页 11 data=urllib.request.urlopen(url).read().decode("utf-8","ignore") 12 return data 13 14 proxy_addr="171.38.36.45:8123" 15 url="http://www.baidu.com" 16 data=use_proxy(url,proxy_addr) 17 print(len(data))
最后若输出data长度 这说明成功爬到数据