zoukankan      html  css  js  c++  java
  • python scrapy框架学习

    Scrapy简介

    Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
    其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

    Scrapy主要包括了以下组件:

    • 引擎(Scrapy): 用来处理整个系统的数据流处理, 触发事务(框架核心)
    • 调度器(Scheduler): 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址
    • 下载器(Downloader): 用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)
    • 爬虫(Spiders): 爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面
    • 项目管道(Pipeline): 负责处理爬虫从网页中抽取的实体,主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后,将被发送到项目管道,并经过几个特定的次序处理数据。
    • 下载器中间件(Downloader Middlewares): 位于Scrapy引擎和下载器之间的框架,主要是处理Scrapy引擎与下载器之间的请求及响应。
    • 爬虫中间件(Spider Middlewares): 介于Scrapy引擎和爬虫之间的框架,主要工作是处理蜘蛛的响应输入和请求输出。
    • 调度中间件(Scheduler Middewares): 介于Scrapy引擎和调度之间的中间件,从Scrapy引擎发送到调度的请求和响应。

    Scrapy运行流程大概如下:

    1. 首先,引擎从调度器中取出一个链接(URL)用于接下来的抓取
    2. 引擎把URL封装成一个请求(Request)传给下载器,下载器把资源下载下来,并封装成应答包(Response)
    3. 然后,爬虫解析Response
    4. 若是解析出实体(Item),则交给实体管道进行进一步的处理。
    5. 若是解析出的是链接(URL),则把URL交给Scheduler等待抓取
     1 from scrapy.spider import Spider
     2 from scrapy.selector import Selector
     3 from tutorial.items import DmozItem 
     4 
     5 
     6 class DmozSpider(Spider):
     7     name = "dmoz"
     8     allowed_domains = ["dmoz.org"]
     9     start_urls = [
    10         "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
    11         "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/",
    12     ]
    13 
    14     def parse(self, response):
    15         sel = Selector(response)
    16         sites = sel.xpath('//ul[@class="directory-url"]/li')
    17         items = []
    18 
    19         for site in sites:
    20             item = DmozItem()
    21             item['name'] = site.xpath('a/text()').extract()
    22             item['url'] = site.xpath('a/@href').extract()
    23             item['description'] = site.xpath('text()').re('-s[^
    ]*\r')
    24             items.append(item)
    25         return items

    为JSON文件编写一个items

    from scrapy.exceptions import DropItem
    
    class TutorialPipeline(object):
    
        # put all words in lowercase
        words_to_filter = ['politics', 'religion']
    
        def process_item(self, item, spider):
            for word in self.words_to_filter:
                if word in unicode(item['description']).lower():
                    raise DropItem("Contains forbidden word: %s" % word)
            else:
                return item

    Spider主程序

    #!/usr/bin/env python
    # -*- coding:utf-8 -*-
    """
    一个简单的Python 爬虫, 用于抓取豆瓣电影Top前250的电影的名称描述等
    
    """
    
    from scrapy.contrib.spiders import CrawlSpider, Rule
    from scrapy.selector import Selector
    from douban.items import DoubanItem
    from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
    
    class DoubanSpider(CrawlSpider) :
    
        name = "douban" 
        allowed_domains = ["movie.douban.com"]
        start_urls = ["http://movie.douban.com/top250"]
        rules = (
            #将所有符合正则表达式的url加入到抓取列表中
            Rule(SgmlLinkExtractor(allow = (r'http://movie.douban.com/top250?start=d+&filter=&type=',))),
            #将所有符合正则表达式的url请求后下载网页代码, 形成response后调用自定义回调函数
            Rule(SgmlLinkExtractor(allow = (r'http://movie.douban.com/subject/d+', )), callback = 'parse_page', follow = True),
            )
    
        def parse_page(self, response) :
            sel = Selector(response)
            item = DoubanItem()
            item['name'] = sel.xpath('//h1/span[@property="v:itemreviewed"]/text()').extract()
            item['description'] = sel.xpath('//div/span[@property="v:summary"]/text()').extract()
            item['url'] = response.url
            return item

    还需要解决的问题

    • 头部伪装
    • 表单提交
    • 编码转换
  • 相关阅读:
    读財报:交易额增长111%的京东,为毛还是亏?
    HDU 1548 A strange lift 搜索
    linux两台server远程copy文件
    Nginx 反向代理、负载均衡、页面缓存、URL重写及读写分离具体解释
    js事件防止冒泡
    LeetCode Rotate Array
    ARM架构授权和IP核授权有什么不一样啊?
    Linux系统结构 详解
    mount -o
    ARM开发板系统移植-----u-boot的编译
  • 原文地址:https://www.cnblogs.com/fjl-vxee/p/6749915.html
Copyright © 2011-2022 走看看