zoukankan      html  css  js  c++  java
  • Python网络爬虫_Scrapy框架_1.新建项目

    在Pycharm中新建一个基于Scrapy框架的爬虫项目(Scrapy库已经导入)

    在终端中输入:

    ''itcast.cn''是为爬虫限定爬取范围

     

    创建完成后的目录

    将生成的itcast.py文件移动到spiders文件夹

    在setting.py文件中添加:  LOG_LEVEL = 'WARNING' 来限定日志

     

    运行爬虫项目:

    1.在终端中将路径移动到mySpider目录 

    2.终端输入 scrapy crawl itcast

     

    设置多个爬虫,多个pipeline函数: 

    (第一张图: 爬虫文件会传递item参数给pipelines文件的函数)

    (第二张图: 根据setting文件内的优先级高低依次进行处理然后传递)

    爬虫itcast传递item给MyspiderPipeline处理后,再继续传递给MyspiderPipeline1(当然在传递的过程中要写上return item)

    pipelines可以通过传递的spider对象的name属性 ,

    判断item参数是从哪个爬虫py文件传递过来的,

    spider.name属性值可自行设定

  • 相关阅读:
    avcodec_open2()分析
    CentOS 6.9 下安装DB2
    使用python操作mysql数据库
    python之tcp自动重连
    决策树算法
    文件夹自动同步工具
    KNN算法介绍
    go语言生成uuid
    golang之log rotate
    golang之tcp自动重连
  • 原文地址:https://www.cnblogs.com/NiBosS/p/12052688.html
Copyright © 2011-2022 走看看