爬虫的浏览器伪装技术原理:
在爬取某些浏览器的时候,对方服务器会对爬虫进行屏蔽,此时,我们需要伪装成浏览器才能爬取。浏览器伪装一般通过报头进行。
实战:
import urllib.request
url = 'http://blog.csdn.net'
headers = ("User-Agent:待爬取网页的...")
opener = urllib.request.biuld_opener()
opener.addheaders = [headers]
data = opener.open(url).read()
fh = open('d:/','wb')
fh.write(data)
fh.close()