zoukankan      html  css  js  c++  java
  • Scrapy框架

    1  scrapy框架初始

       1,scrapy框架的介绍

           

    scrapy是基于Twisted异步框架的爬虫框架, scrapy也是异步的.
    # 优点:
    1.爬取效率高
    2.组件化, 适合开发大型的爬虫

    2  安装与配置

         

    lxml, pywin32, wheel, Twisted, scrapy
    # 本地安装
    pip install Twisted....whl

    3,项目的创建与目录结构

        

    # django项目和APP的创建
    django-admin startproject projectname
    python manage.py startapp appname
    python manage.py runserver
    python manage.py runserver IP:port
    # vue项目的创建
    vue init webpack projectname
    cnpm install 
    cnpm install axios --save
    npm run dev
    # scrapy
    scrapy startproject projectname
    cd 项目名
    scrapy genspider pw baidu.com
    scrapy crawl pw
    scrapy crawl pw --nolog

    目录结果

        

    项目文件夹
        项目名文件夹
            spiders文件夹
                爬虫文件: 定义了爬取的行为和解析的方法
            items.py: 定义爬取的字段
            pipelines.py: 管道
            middlewares.py: 中间件
            settings.py: 项目配置
        project.cfg: 配置文件--> 部署有关

    五的核心组件与数据流

         

    1.五大核心组件:爬虫, 引擎,  调度器,  下载器, 管道
  • 相关阅读:
    洛谷
    洛谷
    NOIP 普及组 2014 螺旋矩阵
    NOIP 普及组 2014 珠心算测验
    hdu 1114Piggy-Bank(完全背包)
    hdu 2059龟兔赛跑("01"背包)
    洛谷 P1282 多米诺骨牌("01"背包)
    洛谷 P1140 相似基因(DP)
    洛谷 P1880 [NOI1995] 石子合并(区间DP)
    洛谷 P1280 尼克的任务
  • 原文地址:https://www.cnblogs.com/nbzyf/p/13600499.html
Copyright © 2011-2022 走看看