zoukankan      html  css  js  c++  java
  • scrapy框架

    一、性能相关

     1 import requests
     2 
     3 def fetch_async(url):
     4     response = requests.get(url)
     5     return response
     6 
     7 
     8 url_list = ['http://www.github.com', 'http://www.bing.com']
     9 
    10 for url in url_list:
    11     fetch_async(url)
    同步执行
    from concurrent.futures import ThreadPoolExecutor
    import requests
    
    
    def fetch_async(url):
        response = requests.get(url)
        return response
    
    
    url_list = ['http://www.github.com', 'http://www.bing.com']
    pool = ThreadPoolExecutor(5)
    for url in url_list:
        pool.submit(fetch_async, url)
    pool.shutdown(wait=True)
    多线程执行
    from concurrent.futures import ThreadPoolExecutor
    import requests
    
    def fetch_async(url):
        response = requests.get(url)
        return response
    
    
    def callback(future):
        print(future.result())
    
    
    url_list = ['http://www.github.com', 'http://www.bing.com']
    pool = ThreadPoolExecutor(5)
    for url in url_list:
        v = pool.submit(fetch_async, url)
        v.add_done_callback(callback)
    pool.shutdown(wait=True)
    多线程+回调函数执行
    from concurrent.futures import ProcessPoolExecutor
    import requests
    
    def fetch_async(url):
        response = requests.get(url)
        return response
    
    
    url_list = ['http://www.github.com', 'http://www.bing.com']
    pool = ProcessPoolExecutor(5)
    for url in url_list:
        pool.submit(fetch_async, url)
    pool.shutdown(wait=True)
    多线程执行
    from concurrent.futures import ProcessPoolExecutor
    import requests
    
    
    def fetch_async(url):
        response = requests.get(url)
        return response
    
    
    def callback(future):
        print(future.result())
    
    
    url_list = ['http://www.github.com', 'http://www.bing.com']
    pool = ProcessPoolExecutor(5)
    for url in url_list:
        v = pool.submit(fetch_async, url)
        v.add_done_callback(callback)
    pool.shutdown(wait=True)
    多进程+回调函数执行

     二、Scrapy

    1、Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。
    其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

    2、scrapy组件

      <1>引擎(Scrapy)

        用来处理整个系统的数据流处理, 触发事务(框架核心)

      <2>调度器(Scheduler)

        用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, <br>由它来决定下一个要抓取的网址是什么, 同时去除重复的网址

      <3>下载器(Downloader)

        用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)

      <4>爬虫(Spiders)

        爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面

      <5>项目管道(Pipeline)

        负责处理爬虫从网页中抽取的实体,主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后,<br>将被发送到项目管道,并经过几个特定的次序处理数据。

      <6>下载器中间件(Downloader Middlewares)

        位于Scrapy引擎和下载器之间的框架,主要是处理Scrapy引擎与下载器之间的请求及响应。

      <7>爬虫中间件(Spider Middlewares)

        介于Scrapy引擎和爬虫之间的框架,主要工作是处理蜘蛛的响应输入和请求输出。

      <8>调度中间件(Scheduler Middewares)

        介于Scrapy引擎和调度之间的中间件,从Scrapy引擎发送到调度的请求和响应

    3、scrapy运行流程

    • 引擎从调度器中取出一个链接(URL)用于接下来的抓取

    • 引擎把URL封装成一个请求(Request)传给下载器

    • 下载器把资源下载下来,并封装成应答包(Response)

    • 爬虫解析Response

    • 解析出实体(Item),则交给实体管道进行进一步的处理

    • 解析出的是链接(URL),则把URL交给调度器等待抓取

    4、scrapy使用

      1、基本命令

    1. scrapy startproject 项目名称
       - 在当前目录中创建中创建一个项目文件(类似于Django)
     
    2. scrapy genspider [-t template] <name> <domain>
       - 创建爬虫应用
       如:
          scrapy gensipider -t basic oldboy oldboy.com
          scrapy gensipider -t xmlfeed autohome autohome.com.cn
       PS:
          查看所有命令:scrapy gensipider -l
          查看模板命令:scrapy gensipider -d 模板名称
     
    3. scrapy list
       - 展示爬虫应用列表
     
    4. scrapy crawl 爬虫应用名称
       - 运行单独爬虫应用

      2、项目结构以及爬虫应用简介

     1 project_name/
     2    scrapy.cfg
     3    project_name/
     4        __init__.py
     5        items.py
     6        pipelines.py
     7        settings.py
     8        spiders/
     9            __init__.py
    10            爬虫1.py
    11            爬虫2.py
    12            爬虫3.py

    文件说明:

    • scrapy.cfg  项目的主配置信息。(真正爬虫相关的配置信息在settings.py文件中)
    • items.py    设置数据存储模板,用于结构化数据,如:Django的Model
    • pipelines    数据处理行为,如:一般结构化的数据持久化
    • settings.py 配置文件,如:递归的层数、并发数,延迟下载等
    • spiders      爬虫目录,如:创建文件,编写爬虫规则
    import scrapy
    from scrapy.selector import HtmlXPathSelector
    from scrapy.http.request import Request
     
     
    class DigSpider(scrapy.Spider):
        # 爬虫应用的名称,通过此名称启动爬虫命令
        name = "dig"
     
        # 允许的域名
        allowed_domains = ["chouti.com"]
     
        # 起始URL
        start_urls = [
            'http://dig.chouti.com/',
        ]
     
        has_request_set = {}
     
        def parse(self, response):
            print(response.url)
     
            hxs = HtmlXPathSelector(response)
            page_list = hxs.select('//div[@id="dig_lcpage"]//a[re:test(@href, "/all/hot/recent/d+")]/@href').extract()
            for page in page_list:
                page_url = 'http://dig.chouti.com%s' % page
                key = self.md5(page_url)
                if key in self.has_request_set:
                    pass
                else:
                    self.has_request_set[key] = page_url
                    obj = Request(url=page_url, method='GET', callback=self.parse)
                    yield obj
     
        @staticmethod
        def md5(val):
            import hashlib
            ha = hashlib.md5()
            ha.update(bytes(val, encoding='utf-8'))
            key = ha.hexdigest()
            return key

    执行此爬虫文件,则在终端进入项目目录执行如下命令:

    scrapy crawl dig --nolog

  • 相关阅读:
    Spring @ContextConfiguration注解
    【Spring】Junit加载Spring容器作单元测试(整理)
    RestTemplate使用教程
    Linux下Maven私服Nexus3.x环境构建操作记录
    Maven 的 classifier 的作用
    Maven 教程(22)— Maven中 plugins 和 pluginManagement
    IOC给程序带来的好处
    Java NIO原理图文分析及代码实现
    Hadoop的RPC机制源码分析
    Flume之核心架构深入解析
  • 原文地址:https://www.cnblogs.com/kakawith/p/9253653.html
Copyright © 2011-2022 走看看