python网络爬虫（2）——scrapy框架的基础使用

zoukankan html css js c++ java

python网络爬虫（2）——scrapy框架的基础使用
这里写一下爬虫大概的步骤，主要是自己巩固一下知识，顺便复习一下。

一，网络爬虫的步骤

1，创建一个工程
scrapy startproject 工程名称
　　创建好工程后，目录结构大概如下：

其中：

　　scrapy.cfg：项目的主配置信息（真正爬虫相关的配置信息在settings.py文件中）

　　items.py：设置数据存储模板，用于结构化数据，如：Django的Model

　　pipelines：数据持久化处理

　　settings.py：配置文件，如：递归的层数，并发数，延迟下载等

　　spiders：爬虫目录，如：创建文件，编写爬虫解析规则

2，在工程目录下创建一个爬虫文件
1， cd 工程 2，scrapy genspider example example.com 其中： example：表示爬虫文件的名称 example.com 表示起始的url（这个url可以随意写，最后在文件中修改即可）
　　

3，对应的文件中编写爬虫程序来完成爬虫的相关操作

　　打开first.py，然后进入编写：

4，配置文件的编写

　　进入settings.py 中修改2个地方：
1，在大概19行中：对请求载体的身份进行伪装我们可以去谷歌中找一个User-Agent的值复制进去。效果如下： USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36' 2，在大概22行中，修改robots协议 robots协议是君子协议，大概爬虫的话，我们可以不遵照这个协议，哈哈哈哈 ROBOTSTXT_OBEY = False
　　

5，执行
scrapy crwal 爬虫文件的名称 --nolog（组织日志信息的输出） # 输出打印信息 scrapy crawl first # 不输出打印信息 scrapy crawl first --nolog
　　效果如下：

【爬取的是杨子晚报，这里就以此为例，创建scrapy爬虫网址：http://www.yangtse.com/】

第一步：安装scrapy框架

（这里不做详细介绍了，要是安装遇到问题的朋友们，可以参考下面链接

　　http://www.cnblogs.com/wj-1314/p/7856695.html）

第二步：创建scrapy爬虫文件

　　格式：scrapy startproject + 项目名称
scrapy startproject yangzi
　　

第三步：进入爬虫文件

　　格式：cd 项目名称
cd yangzi
第四步：创建爬虫项目

　　格式：scrapy genspider -t basic 项目名称网址

　　具体用法如下：
scrapy genspider -t basic yz http://www.yangtse.com/
　　创建好了，如下图：

解释一下文件：
- scrapy.cfg:项目的配置文件
- yangzi:该项目的python模块。之后您将在此加入代码。
- yangzi/items.py:项目中的item文件。
- yangzi/pipelines.py:项目中的pipelines文件。
- yangzi/yz/：放置spider代码的目录。
第五步：进入爬虫项目中，先写items

    写这个的目的就是告诉项目，你要爬去什么东西，比如标题，链接，作者等.

    Item是保存爬取到的数据的容器：其使用方法和python字典类似，并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。
   类似在ORM中做的一样，你可以通过创建一个scrapy.Item类，并且定义类型为scrapy.Field的类属性来定义一个Item。
   首先根据需要从dmoz.org获取到的数据对item进行建模。我们需要从dmoz中获取名字，url，以及网站的描述。对此，在item中定义相应的字段。

　　以我写的为例，我想爬取标题，链接，内容，如下：
class YangziItem(scrapy.Item): # define the fields for your item here like: #标题 title = scrapy.Field() #链接 link = scrapy.Field() #内容 text = scrapy.Field()
第六步：进入pipelines，设置相应程序

分析爬去的网站，依次爬取的东西，因为pipelines是进行后续处理的，比如把数据写入MySQL,或者写入本地文档啊等等，就在pipelies里面写。这里直接输出，不做数据库的导入处理
class YangziPipeline(object): def process_item(self, item, spider): print(item["title"]) print(item["link"]) return item
第七步：再写自己创建的爬虫

    （其实，爬虫和pipelines和settings前后顺序可以颠倒，这个不重要，但是一定要先写items）

     Spider是用户编写用于从单个网站（或者一些网站）爬取数据的类。
     其包含了一个用于下载的初始url,如何跟进网页中的链接以及如何分析页面中的内容，提取生成item的方法。
   为了创建一个Spider,您必须继承scrapy.Spider类，且定义以下三个属性：
　　进入爬虫后，先导入items，接下来需要创建一个ITEM容器，
it = YangziItem()
　　然后写自己的要爬去的内容，分析网页后,利用xpath写
def parse(self, response): it = YangziItem() it["title"] = response.xpath('//div[@class="box-text-title]/text()').extract() it["link"] = response.xpath('//a[@target="_blank"]/@href').extract() #it["text"] = response.xpath().extract() yield it
第八步：设置settings

　　在settings中配置pipelines（ctrl+f 找到pipelines，然后解除那三行的注释，大约在64-68行之间），如下图

第九步：运行爬虫文件
scrapy crawl yz
scrapy crawl yz --nolog #不想显示日志文件
查看全文