zoukankan      html  css  js  c++  java
  • Python爬虫框架--Scrapy安装以及简单实用

     

    scrapy框架

    框架

    ​ -具有很多功能且具有很强通用性的一个项目模板

    环境安装:

     Linux:

           pip3 install scrapy



        Windows:

         a. pip3 install wheel

         b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

         c. 进入下载目录,执行 pip3 install Twisted‑17.1.0‑cp35‑cp35m‑win_amd64.whl

         d. pip3 install pywin32

         e. pip3 install scrapy

    创建一个工程

    ​ scrapy startprobject proName

    cd proName

    创建爬虫文件:

    ​ scrapy genspider spiderName www.xxx.com

    执行工程:

    ​ scrapy crawl spliderName

    持久化存储

    ​ 基于终端指令:

    ​ 只可以将parse方法的返回值存储

    基于管道指令实现持久化存储的实现流程:

    -数据解析
    -封装item类
    -实例化item类型的对象
    -将解析到的数据依次存储封装到item类型的对象中
    -将item提交到管道
    -在管道中实现io操作
    -开启管道
    

      

  • 相关阅读:
    iOS 学习
    iOS 学习
    textField和textView限制输入条件
    FMDB的使用
    Xcode7以后 使用空模板
    MJPhotoBrowser BUG修复
    获得通讯录的访问权
    正则运算校验手机号码
    项目中生产模式和开发模式的切换
    自定义的进度条
  • 原文地址:https://www.cnblogs.com/xinjie123/p/10827767.html
Copyright © 2011-2022 走看看