【Python开发】python使用urllib2抓取防爬取链接

zoukankan html css js c++ java

【Python开发】python使用urllib2抓取防爬取链接
前几天刚看完《Linux/Unix设计思想》，真是一本不错的书，推荐想提高自己代码质量的童鞋看一下，里面经常提到要以小为美，一个程序做好一件事，短小精悍，因此我也按照这种思想来写python技术点的文章，每个点都是一个函数，可以直接拿来用。

开始了

一般情况下用python的童鞋是不可避免的要写一些爬虫程序的，因此对python中urllib和urllib2都比较熟悉。而最基本的爬取方法就是：
urllib.urlopen(url).read()

大多数网站都不会禁止这样的爬取，但是有些网站都设定了禁止爬虫爬取，当然这样一方面是为了保护内容的版权，另一方面也是为了方式过多的爬虫造成网站流量的白白浪费。恶意爬取某一网站的内容当然是不道德的行为了，这里只讨论技术。

下面的函数通过urllib2来模拟浏览器访问链接爬取内容：
def get_url_content(url): i_headers = {"User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1) Gecko/20090624 Firefox/3.5", "Referer": 'http://www.baidu.com'} req = urllib2.Request(url, headers=i_headers) return urllib2.urlopen(req).read()

仅仅是模拟浏览器访问依然是不行的，如果爬取频率过高依然会令人怀疑，那么就需要用到urllib2中的代理设置了，如下：
def get_content_by_proxy(url, proxy): opener = urllib2.build_opener(urllib2.ProxyHandler({'http':proxy}), urllib2.HTTPHandler(debuglevel=1)) urllib2.install_opener(opener) i_headers = {"User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1) Gecko/20090624 Firefox/3.5", "Referer": 'http://www.baidu.com'} req = urllib2.Request(url, headers=i_headers) content = urllib2.urlopen(req).read() return content

要使用这个函数，当然你得找一些代理服务器了，这些资源网上有很多，关键字：http代理

关于网页抓取的方法其实还有其他的方法，技术是很灵活的东西，就看你怎么用。
查看全文

相关阅读:
pandas isin 和not in
游戏开发需要学什么？
打开页面，数字会自增的效果怎么弄？
jq 导航栏点击添加/删除类（a标签跳转页面）
bootstrap+jq分页
 2020/12/18
2020/12/17
2020/12/16
2020/12/15
2020/12/14

原文地址：https://www.cnblogs.com/huty/p/8517986.html

最新文章
期末总结
 20201219日报
 20201218日报
 20201217日报
 20201216日报
 20201215日报
 20201214日报
 java web简单的增删改查
 20201213日报
 20201212日报