zoukankan      html  css  js  c++  java
  • Scrapy框架

    1  scrapy框架初始

       1,scrapy框架的介绍

           

    scrapy是基于Twisted异步框架的爬虫框架, scrapy也是异步的.
    # 优点:
    1.爬取效率高
    2.组件化, 适合开发大型的爬虫

    2  安装与配置

         

    lxml, pywin32, wheel, Twisted, scrapy
    # 本地安装
    pip install Twisted....whl

    3,项目的创建与目录结构

        

    # django项目和APP的创建
    django-admin startproject projectname
    python manage.py startapp appname
    python manage.py runserver
    python manage.py runserver IP:port
    # vue项目的创建
    vue init webpack projectname
    cnpm install 
    cnpm install axios --save
    npm run dev
    # scrapy
    scrapy startproject projectname
    cd 项目名
    scrapy genspider pw baidu.com
    scrapy crawl pw
    scrapy crawl pw --nolog

    目录结果

        

    项目文件夹
        项目名文件夹
            spiders文件夹
                爬虫文件: 定义了爬取的行为和解析的方法
            items.py: 定义爬取的字段
            pipelines.py: 管道
            middlewares.py: 中间件
            settings.py: 项目配置
        project.cfg: 配置文件--> 部署有关

    五的核心组件与数据流

         

    1.五大核心组件:爬虫, 引擎,  调度器,  下载器, 管道
  • 相关阅读:
    WebService是什么?以及工作原理
    分布锁的问题?
    反射是什么?原理?作用?
    HTTP/1.1与HTTP/1.0的区别
    Ajax的跨域问题(包括解决方案)?
    SVN与Git优缺点比较
    类的加载过程?
    B树, B-树,B+树,和B*树的区别
    Linux常用的50个命令
    权限模型
  • 原文地址:https://www.cnblogs.com/nbzyf/p/13600499.html
Copyright © 2011-2022 走看看