python爬虫实现（使用线程池） - 走看看

zoukankan html css js c++ java

python爬虫实现（使用线程池）

代码在这里，注释够详细，应该很容看懂吧。（注，程序里面有坑。。。直接用，不看代码小心中招，嘿嘿。。。）

https://github.com/5crat/spider.py

关于该爬虫

程序运行示例：
　　　Spider.py -u url -d depth
　　　
　　　Url,depth 为必需参数，其他为可选参数，日志文件默认当前目录，名字：spider.log，日志等级默认为3。数据库为：data.sql，也是当前目录。

关键字是匹配源码中标签<meta>的content属性的值

　　　自检模块只是检查网络连接，和数据库连接。

winXP sp3 和 ubuntu12.10测试爬取www.baidu.com两级深度均能正常运行
　　　
目前自知的缺点：
　　　对于命令参数，没有仔细检查分析，如：spider -u s -d 2程序一样会运行，虽然这样不对。

主要参考：
　　　Python爬虫
　　　http://bbs.chinaunix.net/thread-3689276-1-1.html
　　　对Python线程池进行详细说明
　　　http://developer.51cto.com/art/201002/185290.htm
　　　BeautifulSoup学习笔记
　　　http://pqcc.iteye.com/blog/627481
　　　python之sqlite3使用详解
http://anony3721.blog.163.com/blog/static/5119742010716104442536/
　　　Python模块学习
　　　http://www.cnblogs.com/captain_jack/archive/2011/01/11/1933366.html
　　　

----------------------------------------------在穷无非讨饭，不死终会出头。

查看全文

相关阅读:
IIS7 503错误 Service Unavailable
android错误系列之导出数据库出错Failed to pull selection
android学习笔记(入门篇)
使用cmd命令删除文件夹下所有文件
 vue 动态插入组件
 js获取当前时间
 获取带参值
 以毫秒为单位的时间长度转化为时分秒时间格式的时间长度
 js如何复制一个对象？
想在已创建的Vue工程里引入vux组件

原文地址：https://www.cnblogs.com/scrat/p/2936663.html

Copyright © 2011-2022 走看看