python实现并行爬虫

zoukankan html css js c++ java

python实现并行爬虫
问题背景：指定爬虫depth、线程数， python实现并行爬虫
思路：单线程实现爬虫类Fetcher
多线程 threading.Thread去调Fetcher

方法：Fetcher 中，用urllib.urlopen打开指定url，读取信息：
```
response = urllib.urlopen(self.url)
content = response.read()
```
但是这样有问题，比如对于www.sina.com来说，读出来的content是乱码的：
[cpp] view plain copy

>>> content[0:100]

'x1fx8bx08x00x00x00x00x00x00x03xecxbdkx93x1cxd7u xf8x99x8cxd0x7fHx14Wxe8*t=2xebxd5xd5]H`x014@4x88x97x00xf0%x10xeaxc8xaaxcaxeeNxa0xbaxb2Xx99x85x06Xxa8x1fCjx1cxb6ly-x92x06xf5 %xca"Exf1!Rx94xa8x87C3x9exf1xd8#x87xbd;x8exd8x99x8dxb1x1dxf2'
于是用了python第三方工具chardet，通过
```
chardet.detect(content)
```
进行content中字符集的检测：
[html] view plain copy

>>> chardet.detect(content)

{'confidence': 0.99, 'encoding': 'GB2312'}
好，问题解决了：
[html] view plain copy

>>> import urllib

>>> url = 'http://www.sina.com'

>>> response = urllib.urlopen(url)

>>> content = response.read()

>>> chardet.detect(content)

{'confidence': 0.99, 'encoding': 'GB2312'}
但是我们想高效爬虫的时候需要设置urlopen的timeout时间，这在urllib中没有实现，而在urllib2中有实现：
```
response = urllib2.urlopen(self.url, timeout = self.timeout)
```
但是这时候再用chardet出现的字符集结果与上次不同：
[html] view plain copy

>>> import urllib

>>> url = 'http://www.sina.com'

>>> response = urllib2.urlopen(url, timeout=1)

>>> content = response.read()

>>> chardet.detect(content)

{'confidence': 0.0, 'encoding': None}
这是怎么回事？原来是这个页面的编码问题，该页面返回的是gzip编码，参考<python urllib2 returns garbage - Stack Overflow>

实际上每次应该判断页面信息的'Content-Encoding'是否为'gzip'。

urllib支持gzip页面自动解压而urllib2不支持。所以对于这种页面，先解压再read：
```
try:
    response = urllib2.urlopen(self.url, timeout = self.timeout)
    if response.info().get('Content-Encoding', "") == 'gzip':  #e.g www.sina.com.cn
        buf = StringIO.StringIO(response.read())
        f = gzip.GzipFile(fileobj=buf)
        content = f.read()
    else:
        content = response.read()
    content = self.enc_dec(content)
    return content
except socket.timeout:
    log.warn("Timeout in fetching %s" % self.url)
```
到这里，大家是不是都以为我只是个标题党。。。？

*******************************************************************************

那么，就把调通的整个spider文件share一下吧，

程序支持多线程爬虫，主文件为spider.py, testSpider.py为单测（不保证覆盖率）。

程序地址：http://download.csdn.net/detail/abcjennifer/9086751

from: http://blog.csdn.net/abcjennifer/article/details/48270479
查看全文

相关阅读:
SQL_Server_2005_字符串函数(描述及实例)
固定在左右两侧不动的广告条样式
 jquery 浏览器判断
 sqlserver 2005无限极分类获取所有子分类
 asp.net使用treeview控件,递归加载
 C++day15 学习笔记
 Win32编程day02 学习笔记
 Win32编程day04 学习笔记
 C++day16 学习笔记
 Win32编程day05 学习笔记

原文地址：https://www.cnblogs.com/GarfieldEr007/p/5354570.html