scrapy跟pyspider的杂谈

zoukankan html css js c++ java

scrapy跟pyspider的杂谈

最近有一个私人项目要搞，可能最近的博客都会变成爬虫跟数据分析类的了。既然是爬虫，第一反应想到的就是鼎鼎大名的scrapy了，其次想到的pyspider，最后想到的就是自己写。

scrapy是封装了twisted的一个爬虫框架，项目结构比较清晰

其中Item Pipeline决定了数据传输跟保存的结构，而爬虫的核心部分在spider目录下，而爬虫也只需要关系核心的解析规则编写。可以看出，scrapy框架搭了一个架子，在这框架中其实需要实现的核心功能还是要很多的，但是不需要关心中间件层面的东西了。另外scrapy很方便扩展，因此，是一个很不错的轮子了。

另外一个就是pyspider，这个框架封装了tornado，以及集成了一系列工具，比如lxml, css-selector-help，pyquery，phantomjs等，而且开放的api也相当精简，相当于说，pyspider就是针对新手量身定做的一个框架，类似于scrapy中中间件的东西，这边已经帮你集成好了，所有需要关心的就是你的爬虫规则，甚至爬虫规则都支持单步调试编写，门槛几乎为0了。

经过思考，如果要研究一个框架的技术，我决定还是研究pyspider会比较好，原因如下。

1.同样的异步框架，tornado可能比twisted抽象程度更低，且更现代一点；

2.pyquery，phantomjs等都是目前比较流行的前端解析工具，因此研究一下它的接入方式以及api封装对我来说更有实际价值；

3.不用操心scrapy的动态网站的处理，目前scrapy在我研究中发现，主要有几种方式解决：

（1）scrapy-splash：https://github.com/scrapy-plugins/scrapy-splash，另外有一个实战的例子也贴出来：http://blog.csdn.net/qq_23849183/article/details/51287935

（2）scrapy+spynner：实战例子也贴一下：http://kevinflynn.iteye.com/blog/2230990

但是 spynner是基于PyQT 和 WebKit构建的，而splash也是基于twisted跟QT。有QT，那肯定效率不行啊，还不如用selenium了，在这一点上，phantomjs是基于webkit的js api，因此它的好处就是快。综合考虑下，还是研究pyspider吧。

也许后续会贴出一系列pyspider源码分析的文章。

查看全文

相关阅读:
angular 路由动态加载JS文件
 使用AngularJS处理单选框和复选框的简单方法
 angularjs 请求后端接口请求了两次
 angular ui.router 路由传参数
 linux 安装svn服务器
 gulp css 压缩合并
 ajax 实现跨域
 [codeforces 1366D] Two Divisors
Namomo Test Round 1 题解
 Race(淀粉质)

原文地址：https://www.cnblogs.com/alexkn/p/6941999.html