zoukankan      html  css  js  c++  java
  • scrapy框架的使用

    Scrapy    框架架构

    一.Scrapy框架是基于Twisted的异步框架,纯Python实现的爬虫框架,耦合程度低,可拓展性极强。

    1.Engine引擎,处理整个系统的数据流、触发事物、框架的核心

    2.item项目,定义爬虫爬取结果的数据结构,爬取的数据会被赋值成该item对象

    3.Schedule调度器,接受engine发过来的request放入队列,然后engine再次请求时,将request发送给engine

    4.Downloader下载器,下载网页内容,并将网页返回给spiders

    5.spiders蜘蛛,定义爬取逻辑和网页解析规则,负责解析response提取结果并返回新的request

    6.item Pipeline项目管道,负责处理由蜘蛛从网页中抽取项目,进行清洗,验证和存储数据

    7.Downloader Middlewares下载器中间件,主要处理engine和Downloader之间的请求及响应

    8.spider Middlewares 蜘蛛中间件,主要处理spiders输入的响应和输出结果及新的请求

    scrapy数据流

    1.engine打开网站,向这个网站的spider请求第一个要爬取的URL

    2.engine通过Scheduler以request的形式调度第一个URL

    3.engine向Scheduler请求下一个要爬取的URL

    4.Scheduler返回下一个要爬取的URL给engine,engine将URL通过Downloader Middlewares 转发给Downloader下载

    5.一旦页面下载完毕,Downloader生成该页面的Response,并将其通过Downloader Middlewares发送给Engine

    6.Engine从下载器中接受Response,并将其通过Spider Middlewares发送给Spider处理

    7.Spider处理Response,并返回爬取到的Item及新的Request给Engine

    8.Engine将Spider返回的Item给Item Pipeline,将新的Request给Scheduler

    9.重复第2到第8步,直到Scheduler中没有更多的Request,Engine关闭该网站,爬取接受

    Scrapy项目认识

    1.安装Scrapy通过pip安装   pip install Scrapy

    2.创建Scrapy项目,直接通过scrapy命令   scrapy startproject  XXXXX 这个命令可以在任意文件夹运行,我们在一个文件夹中用scrapy startproject Tanzhou命令生成一个Tanzhou的文件夹,再进入Tanzhou文件中,用命令scrapy genspider Tanzhous  shiguangkey.com在文件夹中生成Tanzhous.py文件

       

    3.构造请求

    class TanzhousSpider(scrapy.Spider):
        name = 'Tanzhous'
        allowed_domains = ['shiguangkey.com']
        baseUrl = 'https://www.shiguangkey.com/course/list?page='
        offset=0
    
        start_urls = [baseUrl + str(offset)]

    4.创建Item,在items.py文件中

    import scrapy
    
    
    class TanzhouItem(scrapy.Item):
        # define the fields for your item here like:
        # name = scrapy.Field()
        # 课程金额
        money = scrapy.Field()
        # 课程名称
        title = scrapy.Field()
        #课程人数
        personNum=scrapy.Field()
    

    5.解析响应,在Tanzhous.py类的parse()方法中直接对response进行解析,并添加到item中,再返回Item。后面使用了前面offset来构造新的request,使用callback

    函数再次解析request

    def parse(self, response):
            nodes=response.xpath('.//div[@class="course-item w192 h240 fl"]')
            for node in nodes:
                item=TanzhouItem()
    
                item['money']=node.xpath('normalize-space(.//div[@class="item-line"]/span/text())').extract_first()
                item['title']=node.xpath('normalize-space(.//div[@class="itemcont"]/a/text())').extract_first()
                item['personNum']=node.xpath('.//div[@class="item-line"]/a/text()').extract_first()
                
                yield item
    
                if self.offset <24:
                   self.offset += 1
                   url = self.baseUrl + str(self.offset)
                   yield scrapy.Request(url, callback=self.parse)
    

    6.进入目录运行项目使用命令  scrapy crawl Tanzhous,可以运行结果,

    这只是一部分内容,通过Scrapy框架可以做到边解析边爬取,直到爬取结束,停止

    7.可以将命令窗口爬取到的内容保存到文件,执行下面的命令保存成json文件  scrapy crawl Tanzhous -o Tanzhous.json运行之后就可以看见json文件了

    还可以通过命令输出csv、xml、pickle、marshal格式

    scrapy crawl Tanzhous -o Tanzhous.csv

    scrapy crawl Tanzhous -o Tanzhous.xml

    scrapy crawl Tanzhous -o Tanzhous.pickle

    scrapy crawl Tanzhous -o Tanzhous.marshal

    8.将结果保存到MongoDB数据库要通过定义Item Pipeline实现,修改pipeline.py文件添加新类TextPipeline 实现process_item()方法,ItemPipeline是项目管道,前面生成的Item都要被送到ItemPipeline进行处理,也就是清理Html数据,验证爬虫数据,查重,再保存到数据库中

    import pymongo
    from scrapy.exceptions import DropItem
    
    
    class TextPipeline(object):
    
        def __init__(self):
            self.limit=50
        def process_item(self, item, spider):
            if item['title']:
               if len(item['title'])>self.limit:
                  item['title']=item['title'][0:self.limit].rstrip()+'...'
               return item
            else:
               return DropItem('Missing Text')

    这是对数据的再处理以便保存到数据库。同样在pipeline.py中定义另一个Pipeline,我们实现另一个MongoPipeline如下

    class MongoPipeline(object):
        
         def __init__(self, mongo_uri,mongo_db):
             self.mongo_uri=mongo_uri
             self.mongo_db=mongo_db
    
         @classmethod
         def from_crawler(cls,crawler):
             return cls(
                mongo_uri=crawler.settings.get('MONGO_URI'),
                mongo_db=crawler.settings.get('MONGO_DB')
            )
         def open_spider(self,spider):
            self.client=pymongo.MongoClient(self.mongo_uri)
            self.db=self.client[self.mongo_db]
    
         def process_item(self,item,spider):
            name=item.__class__.__name__
            self.db[name].insert(dict(item))
            return item
         def close_spider(self,spider):
            self.client.close()

    我们还要在setting.py中配置内容

    ITEM_PIPELINES={
        'Tanzhou.pipelines.TextPipeline':300,
        'Tanzhou.pipelines.MongoPipeline':400,
    }
    MONGO_URI='localhost'
    MONGO_DB='TanzhouW'

    还要启动mongodb数据库,在执行爬取运行命令 scrapy crawl Tanzhous 爬取结束后MongoDB中创建了一个数据库如下

     

     

     

     

     

     

     

     

  • 相关阅读:
    MySQL 正则表达式
    spark 应用场景2-身高统计
    spark 应用场景1-求年龄平均值
    spark jdk8 单词统计示例
    spark 常用函数介绍(python)
    Spark如何读写hive
    sparkJavaApi逐个详解
    Spark基础与Java Api介绍
    Spark函数详解系列之RDD基本转换
    Spark中使用Java编程的常用方法
  • 原文地址:https://www.cnblogs.com/jzxs/p/10158666.html
Copyright © 2011-2022 走看看