Scrapy: 初识Scrapy

zoukankan html css js c++ java

Scrapy: 初识Scrapy
1.初识Scrapy

Scrapy是为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或者存储历史数据等一系列的程序中。

2.选择一个网站

当需要从某个网站获取信息时，但该网站未提供API或者能通过程序获取信息的机制时，Scapy可以助你一臂之力。

3.定义想抓去的数据

在Scrapy中，通过Scrapy Items来完成的

import scrapy

　　 class Torrent(scrapy.Item):

　　　　url=scrapy.Field()

　　　　name=scrapy.Field()

　　　　description=scrapy.Field()

　　　　size=scrapy.Field()

4.编写提取数据的Spider

编写一个spider来定义初始URL，针对后续链接的规则以及从页面中提取数据的规则

使用XPath来从页面的HTML源码中选择需要提取的数据

结合自己的内容给出spider代码，eg：

5.执行spider,获取数据

运行spider来获取网站的数据，并以JSON格式存入到文件中：

scrapy crawl mininova -o scraped_data.json

命令中使用了feed导出来导出JSON文件，可以修改到处格式或者存储后端，同时也可以编写管道将item存储到数据库中。

6.查看提取到数据

执行结束后，查看scraped_data.json,将看到提取到的item

7.还有什么？
- Scrapy提供了很多强大的特性来使得爬取更为简单高效，例如：
- HTML，XML源数据选择及提取的内置支持
- 提供了一系列的spider之间共享的可复用的过滤器，对智能处理爬取数据提供了内置支持
- 通过feed导出提供了多格式（JSON，CSV，XML），多存储后端（FTP，S3，本地文件系统）的内置支持
- 提供了media pipeline，可以自动下载爬取到的数据中的图片（或者其他资源）
- 高扩展性，可以通过使用signals,设计好的API（中间件，exetensions,pipelines）来定制实现您的功能。
- 内置的中间件及扩展为下列功能提供了支持：
1. cookies and session处理
2. HTTP压缩
3. HTTP认证
4. HTTP缓存
5. user-agent模拟
6. robots.txt
7. 爬取深度限制
8. 其他
- 针对非英语系统中不标准或者错误的编码声明，提供了自动检测及健壮的编码支持
- 支持根据模板生成爬虫。在加速爬虫创建的同时，保持在大型项目中的代码更为一致
- 针对多爬虫性能评估，失败检测，提供了可扩展的状态收集工具
- 提供交互式shell终端，为测试XPath表达式，编写和调试爬虫提供了极大的方便
- 提供System service，简化在生产环境的部署及运行
- 内置Telnet终端，通过在Scrapy进程中钩入Python终端，可以查看并调试爬虫
- Logging在爬虫过程中捕捉错误提供了方便
- 支持Sitemaps爬取
- 具有缓存的DNS解析器
查看全文

相关阅读:
JNI介绍
 github自己用（未完）
Android中的内存泄漏问题前世今生(转)
android开发之OpenGL(三)
android之PopupWindow焦点问题
 Spring笔记2
android 存储ANR问题的traces.txt
Gallery与imageView的onClick事件冲突解决方法
 android小小的开发细节
 PHP网站中整体防注入方法

原文地址：https://www.cnblogs.com/baxianhua/p/8616078.html