zoukankan      html  css  js  c++  java
  • Scrapy框架

    1  scrapy框架初始

       1,scrapy框架的介绍

           

    scrapy是基于Twisted异步框架的爬虫框架, scrapy也是异步的.
    # 优点:
    1.爬取效率高
    2.组件化, 适合开发大型的爬虫

    2  安装与配置

         

    lxml, pywin32, wheel, Twisted, scrapy
    # 本地安装
    pip install Twisted....whl

    3,项目的创建与目录结构

        

    # django项目和APP的创建
    django-admin startproject projectname
    python manage.py startapp appname
    python manage.py runserver
    python manage.py runserver IP:port
    # vue项目的创建
    vue init webpack projectname
    cnpm install 
    cnpm install axios --save
    npm run dev
    # scrapy
    scrapy startproject projectname
    cd 项目名
    scrapy genspider pw baidu.com
    scrapy crawl pw
    scrapy crawl pw --nolog

    目录结果

        

    项目文件夹
        项目名文件夹
            spiders文件夹
                爬虫文件: 定义了爬取的行为和解析的方法
            items.py: 定义爬取的字段
            pipelines.py: 管道
            middlewares.py: 中间件
            settings.py: 项目配置
        project.cfg: 配置文件--> 部署有关

    五的核心组件与数据流

         

    1.五大核心组件:爬虫, 引擎,  调度器,  下载器, 管道
  • 相关阅读:
    学习笔记|数组的扩展
    javascript日期 时间处理类库
    v-if v-for同时使用 解决eslint报错问题
    跳出foreach循环
    live-player live-pusher惨案
    TypeError: Object(…) is not a function
    实现垂直水平居中的方法
    面试时候遇到的笔试题
    ajax跨域
    Bootstrap响应式相关
  • 原文地址:https://www.cnblogs.com/nbzyf/p/13600499.html
Copyright © 2011-2022 走看看