利用scrapy框架进行爬虫

zoukankan html css js c++ java

利用scrapy框架进行爬虫
今天一个网友问爬虫知识，自己把许多小细节都忘了，很惭愧，所以这里写一下大概的步骤，主要是自己巩固一下知识，顺便复习一下。（scrapy框架有一个好处，就是可以爬取https的内容）

【爬取的是杨子晚报，这里就以此为例，创建scrapy爬虫网址：http://www.yangtse.com/】

第一步：安装scrapy框架

（这里不做详细介绍了，要是安装遇到问题的朋友们，可以参考下面链接

http://www.cnblogs.com/wj-1314/p/7856695.html）

第二步：创建scrapy爬虫文件

格式：scrapy startproject + 项目名称
scrapy startproject yangzi
第三步：进入爬虫文件

格式：cd 项目名称
cd yangzi
第四步：创建爬虫项目

格式：scrapy genspider -t basic 项目名称网址

具体用法如下：

Usage
=====
scrapy genspider [options] <name> <domain>

Generate new spider using pre-defined templates

Options
=======
--help, -h              show this help message and exit
--list, -l              List available templates
--edit, -e              Edit spider after creating it
--dump=TEMPLATE, -d TEMPLATE
                        Dump template to standard output
--template=TEMPLATE, -t TEMPLATE
                        Uses a custom template.
--force                 If the spider already exists, overwrite it with the
                        template

Global Options
--------------
--logfile=FILE          log file. if omitted stderr will be used
--loglevel=LEVEL, -L LEVEL
                        log level (default: DEBUG)
--nolog                 disable logging completely
--profile=FILE          write python cProfile stats to FILE
--pidfile=FILE          write process ID to FILE
--set=NAME=VALUE, -s NAME=VALUE
                        set/override setting (may be repeated)
--pdb                   enable pdb on failure
scrapy genspider -t basic yz http://www.yangtse.com/
创建好了，如下图：

解释一下文件：
- scrapy.cfg:项目的配置文件
- yangzi:该项目的python模块。之后您将在此加入代码。
- yangzi/items.py:项目中的item文件。
- yangzi/pipelines.py:项目中的pipelines文件。
- yangzi/yz/：放置spider代码的目录。
第五步：进入爬虫项目中，先写items

    写这个的目的就是告诉项目，你要爬去什么东西，比如标题，链接，作者等.

    Item是保存爬取到的数据的容器：其使用方法和python字典类似，并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。
   类似在ORM中做的一样，你可以通过创建一个scrapy.Item类，并且定义类型为scrapy.Field的类属性来定义一个Item。
   首先根据需要从dmoz.org获取到的数据对item进行建模。我们需要从dmoz中获取名字，url，以及网站的描述。对此，在item中定义相应的字段。

以我写的为例，我想爬取标题，链接，内容，如下：
class YangziItem(scrapy.Item): # define the fields for your item here like: #标题 title = scrapy.Field() #链接 link = scrapy.Field() #内容 text = scrapy.Field()
第六步：进入pipelines，设置相应程序

分析爬去的网站，依次爬取的东西，因为pipelines是进行后续处理的，比如把数据写入MySQL,或者写入本地文档啊等等，就在pipelies里面写。这里直接输出，不做数据库的导入处理
class YangziPipeline(object): def process_item(self, item, spider): print(item["title"]) print(item["link"]) return item
第七步：再写自己创建的爬虫

    （其实，爬虫和pipelines和settings前后顺序可以颠倒，这个不重要，但是一定要先写items）

     Spider是用户编写用于从单个网站（或者一些网站）爬取数据的类。
     其包含了一个用于下载的初始url,如何跟进网页中的链接以及如何分析页面中的内容，提取生成item的方法。
   为了创建一个Spider,您必须继承scrapy.Spider类，且定义以下三个属性：
进入爬虫后，先导入items

接下来需要创建一个ITEM容器，
it = YangziItem()
然后写自己的要爬去的内容，分析网页后,利用xpath写
def parse(self, response): it = YangziItem() it["title"] = response.xpath('//div[@class="box-text-title]/text()').extract() it["link"] = response.xpath('//a[@target="_blank"]/@href').extract() #it["text"] = response.xpath().extract() yield it
第八步：设置settings

在settings中配置pipelines（ctrl+f 找到pipelines，然后解除那三行的注释，大约在64-68行之间），如下图

第九步：运行爬虫文件
scrapy crawl yz
scrapy crawl yz --nolog #不想显示日志文件
查看全文

相关阅读:
08-jQuery的位置信息
 06-jQuery的文档操作(重点)
05-使用jQuery操作input的value值
 17-案例
 04-jQuery的属性操作
 03-jQuery动画效果
 02-jQuery的选择器
 01-jQuery的介绍
 16-client、offset、scroll系列
 15-BOM

原文地址：https://www.cnblogs.com/huangjinyong/p/10020081.html

利用scrapy框架进行爬虫

第一步：安装scrapy框架

第二步：创建scrapy爬虫文件

第三步：进入爬虫文件

第四步：创建爬虫项目

第五步：进入爬虫项目中，先写items

第六步：进入pipelines，设置相应程序

第七步：再写自己创建的爬虫

第八步：设置settings

第九步：运行爬虫文件