zoukankan      html  css  js  c++  java
  • 利用scrapy框架进行爬虫

    今天一个网友问爬虫知识,自己把许多小细节都忘了,很惭愧,所以这里写一下大概的步骤,主要是自己巩固一下知识,顺便复习一下。(scrapy框架有一个好处,就是可以爬取https的内容)

    【爬取的是杨子晚报,这里就以此为例,创建scrapy爬虫 网址:http://www.yangtse.com/】

    第一步:安装scrapy框架

    (这里不做详细介绍了,要是安装遇到问题的朋友们,可以参考下面链接

    http://www.cnblogs.com/wj-1314/p/7856695.html)

    第二步:创建scrapy爬虫文件

    格式:scrapy startproject  + 项目名称

    scrapy startproject yangzi

    第三步:进入爬虫文件

    格式:cd  项目名称

    cd yangzi

    第四步:创建爬虫项目

    格式:scrapy genspider -t basic  项目名称  网址

    具体用法如下:

    Usage
    =====
      scrapy genspider [options] <name> <domain>

    Generate new spider using pre-defined templates

    Options
    =======
    --help, -h              show this help message and exit
    --list, -l              List available templates
    --edit, -e              Edit spider after creating it
    --dump=TEMPLATE, -d TEMPLATE
                            Dump template to standard output
    --template=TEMPLATE, -t TEMPLATE
                            Uses a custom template.
    --force                 If the spider already exists, overwrite it with the
                            template

    Global Options
    --------------
    --logfile=FILE          log file. if omitted stderr will be used
    --loglevel=LEVEL, -L LEVEL
                            log level (default: DEBUG)
    --nolog                 disable logging completely
    --profile=FILE          write python cProfile stats to FILE
    --pidfile=FILE          write process ID to FILE
    --set=NAME=VALUE, -s NAME=VALUE
                            set/override setting (may be repeated)
    --pdb                   enable pdb on failure

    scrapy genspider -t basic yz http://www.yangtse.com/

    创建好了,如下图:

    解释一下文件:

    • scrapy.cfg:项目的配置文件
    • yangzi:该项目的python模块。之后您将在此加入代码。
    • yangzi/items.py:项目中的item文件。
    • yangzi/pipelines.py:项目中的pipelines文件。
    • yangzi/yz/:放置spider代码的目录。

    第五步:进入爬虫项目中,先写items

        写这个的目的就是告诉项目,你要爬去什么东西,比如标题,链接,作者等.

        Item是保存爬取到的数据的容器:其使用方法和python字典类似,并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。 
       类似在ORM中做的一样,你可以通过创建一个scrapy.Item类,并且定义类型为scrapy.Field的类属性来定义一个Item。 
       首先根据需要从dmoz.org获取到的数据对item进行建模。我们需要从dmoz中获取名字,url,以及网站的描述。对此,在item中定义相应的字段。

    以我写的为例,我想爬取标题,链接,内容,如下:

    复制代码
    class YangziItem(scrapy.Item):
        # define the fields for your item here like:
        #标题
        title = scrapy.Field()
        #链接
        link =  scrapy.Field()
        #内容
        text =  scrapy.Field()
    复制代码

    第六步:进入pipelines,设置相应程序

        分析爬去的网站,依次爬取的东西,因为pipelines是进行后续处理的,比如把数据写入MySQL,或者写入本地文档啊等等,就在pipelies里面写。这里直接输出,不做数据库的导入处理

    class YangziPipeline(object):
        def process_item(self, item, spider):
            print(item["title"])
            print(item["link"])
            return item

    第七步:再写自己创建的爬虫

        (其实,爬虫和pipelines和settings前后顺序可以颠倒,这个不重要,但是一定要先写items)

         Spider是用户编写用于从单个网站(或者一些网站)爬取数据的类。 
         其包含了一个用于下载的初始url,如何跟进网页中的链接以及如何分析页面中的内容,提取生成item的方法。 
       为了创建一个Spider,您必须继承scrapy.Spider类,且定义以下三个属性:

      • name:用于区别Spider。改名字必须是唯一的,您不可以为不同的Spider设定相同的名字。
      • start_urls:包含了Spider在启动时进行爬取的url列表。因此,第一个被获取的页面给将是其中之一。后续的URL则从初始的URL获取到的数据中提取。
      • parse():是spider的一个方法。被调用时,每个初始url完成下载后生成的Response对象将会作为唯一的参数传递给该函数。该方法负责解析返回的数据(response data),提取数据(生成item)以及生成需要进一步处理的URL的Request对象。

    进入爬虫后,先导入items

    接下来需要创建一个ITEM容器,

     it = YangziItem()

    然后写自己的要爬去的内容,分析网页后,利用xpath写

    复制代码
       def parse(self, response):
            it = YangziItem()
            it["title"] = response.xpath('//div[@class="box-text-title]/text()').extract()
            it["link"] = response.xpath('//a[@target="_blank"]/@href').extract()
            #it["text"] = response.xpath().extract()
            yield it
    复制代码

    第八步:设置settings

    在settings中配置pipelines(ctrl+f 找到pipelines,然后解除那三行的注释,大约在64-68行之间),如下图

    第九步:运行爬虫文件

    scrapy crawl yz
    scrapy crawl yz --nolog #不想显示日志文件
  • 相关阅读:
    最短路径算法floyd(转)
    Effective Java 笔记(超链接)
    最短路径算法Dijkstra (转)
    散列表(哈希表)工作原理 (转)
    Java标记接口
    java clone方法使用详解(转)
    Effective Java笔记 (转)
    KMP算法中next数组的理解与算法的实现(java语言)
    sqlserver行列调换
    Linq的一些用法
  • 原文地址:https://www.cnblogs.com/huangjinyong/p/10020081.html
Copyright © 2011-2022 走看看