scrapy基本使用（一）

zoukankan html css js c++ java

scrapy基本使用（一）
scrapy基本使用（一）

参考文档：Scrapy入门教程 http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html

scrapy基本使用（二） http://www.cnblogs.com/zhaijiahui/p/6984640.html

1、安装

python3.5 按照官网大写的安不上，要是小写的才能安上
pip install scrapy
理论上如果报错，再看几遍就好了，至少我是这样，可能是网络问题吧。

如果出现了这个报错，是twisted的安装问题。
　 building 'twisted.test.raiser' extension error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools
解决方案：

http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下载twisted对应版本的whl文件（如我的Twisted‑17.5.0‑cp36‑cp36m‑win_amd64.whl），cp后面是python版本，amd64代表64位，运行命令：
pip install C:UsersCRDownloadsTwisted-17.5.0-cp36-cp36m-win_amd64.whl
其中install后面为下载的whl文件的完整路径名
安装完成后，再次运行：
pip install Scrapy
即可成功。

2、基础操作

1）创建项目

这是第一步，因为我们要使用人家搭好的框架，这步就是生成框架。
scrapy startproject tutorial
执行成功会在当前目录生成一个文件夹。

2）文件夹里的内容

官网说的很详细了，这里引用官网，我根据自己浅薄的知识理解一下。

scrapy.cfg: 项目的配置文件

tutorial/: 该项目的python模块。之后您将在此加入代码。（这才是核心呀。。）

tutorial/items.py: 项目中的item文件.（这是创建容器的地方，爬取的信息分别放到不同容器里）

tutorial/pipelines.py: 项目中的pipelines文件.

tutorial/settings.py: 项目的设置文件.（我用到的设置一下基础参数，比如加个文件头，设置一个编码）

tutorial/spiders/: 放置spider代码的目录. （放爬虫的地方）

3）定义容器（items.py）

我个人认为，容器不用一开始就定好，应该是一点一点加的，但是官网就这个顺序。。

修改items.py
import scrapy class DmozItem(scrapy.Item): #创建一个类，继承item类，就是继承人家写好的容器嘛 title = scrapy.Field() # 取哪些内容，就创建哪些容器 link = scrapy.Field() desc = scrapy.Field()
3、爬虫的编写

例子：
import scrapy class DmozSpider(scrapy.Spider): # 继承Spider类 name = "dmoz" # 爬虫的唯一标识，不能重复，启动爬虫的时候要用 allowed_domains = ["dmoz.org"] # 限定域名，限定范围，应该是这个意思 start_urls = [ # 链接列表，可以有多个 "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/" ] def parse(self, response): filename = response.url.split("/")[-2] # 获取url，用”/”分段，获去倒数第二个字段 with open(filename, 'wb') as f: f.write(response.body) # 把访问的得到的网页源码写入文件
这里需要重点说一下parse方法

被调用时，每个初始URL完成下载后生成的 Response 对象将会作为唯一的参数传递给该函数。

该方法负责解析返回的数据(response data)，提取数据(生成item)以及生成需要进一步处理的URL的 Request 对象。

简单说就是用来编写爬虫的主体，response就是网页源码。

4、启动爬虫

一条命令：
scrapy crawl dmoz
执行爬虫的时候发生了什么？

Scrapy为Spider的 start_urls 属性中的每个URL创建了 scrapy.Request 对象，并将 parse 方法作为回调函数(callback)赋值给了Request。

例：
yield scrapy.Request(self.url + nextLink, callback=self.parse)
Request对象经过调度，执行生成 scrapy.http.Response 对象并送回给spider parse() 方法。

这里我们了解到请求链接的改变是靠回调函数实现的。
查看全文

相关阅读:
网页中弹出提示框
 三级联动
 pdo预处理
 ajax返回数据类型 text json xml
PHP语言 -- 数据访问好友列表
 2.17 牛牛你个渣渣这种题都做不出来尹老师教你的你全还给他了吗？
1.25 作业
 1.22作业
 1.20 作业
 js 学习笔记

原文地址：https://www.cnblogs.com/zhaijiahui/p/6973858.html

scrapy基本使用（一）

scrapy基本使用（一）

1、 安装

2、 基础操作

3、 爬虫的编写

4、 启动爬虫

1、安装

2、基础操作

3、爬虫的编写

4、启动爬虫