zoukankan      html  css  js  c++  java
  • Scrapy 框架介绍

    Scrapy 框架

    Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试
    Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。
    Scrap,是碎片的意思,这个Python的爬虫框架叫Scrapy。

    Scrapy运行原理图

    scrapy执行流程

    • 一、引擎向spiders要url
    • 二、引擎将要爬取的url给调度器
    • 三、调度器会将url生成请求对象放到指定的队列中
    • 四、从队列中出队一个请求
    • 五、引擎将请求交给下载器进行处理
    • 六、下载器发送请求获取互联网数据
    • 七、下载器将数据返回给引擎
    • 八、引擎将数据再次给spiders
    • 九、spiders解析该数据,得到数据或url
    • 十、spiders将数据或者url给引擎
    • 十一、引擎判断是数据还是url,如果是数据交给管道(item pipeline)处理,是url交给调度器处理
  • 相关阅读:
    FBX Software Development Kit
    如何用Nsight调试C# OpenGL程序
    Xcode如何编译Debug版和Release版
    Mapbox
    OpenGL
    OpenGL Tutorial
    Unity3D Sprite Draw Call合批规则
    MONO加载DLL调试命令
    如何在Flash Builder里新建ActionScript工程
    Flash Frameworks
  • 原文地址:https://www.cnblogs.com/huanggaoyu/p/10653038.html
Copyright © 2011-2022 走看看