Python网络爬虫_Scrapy框架_1.新建项目 - 走看看

zoukankan html css js c++ java

Python网络爬虫_Scrapy框架_1.新建项目

在Pycharm中新建一个基于Scrapy框架的爬虫项目(Scrapy库已经导入)

在终端中输入:

''itcast.cn''是为爬虫限定爬取范围

创建完成后的目录

将生成的itcast.py文件移动到spiders文件夹

在setting.py文件中添加: LOG_LEVEL = 'WARNING' 来限定日志

运行爬虫项目:

1.在终端中将路径移动到mySpider目录

2.终端输入 scrapy crawl itcast

设置多个爬虫,多个pipeline函数:

(第一张图: 爬虫文件会传递item参数给pipelines文件的函数)

(第二张图: 根据setting文件内的优先级高低依次进行处理然后传递)

爬虫itcast传递item给MyspiderPipeline处理后,再继续传递给MyspiderPipeline1(当然在传递的过程中要写上return item)

pipelines可以通过传递的spider对象的name属性 ,

判断item参数是从哪个爬虫py文件传递过来的,

spider.name属性值可自行设定

查看全文

相关阅读:
Linux 杂记
 Hadoop多硬盘配置时的注意事项
 spark-env.sh 配置示例
 Nagios监控ganglia的指标
 ELK日志解决方案安装配置与使用
 zookeeper 相关学习资料
 Hive分析hadoop进程日志
 hadoop2.3cdh5.0.2 upgrade to hadoop2.5cdh5.5.0
Nagios check_logfiles插件的使用记录
 Hadoop Kernel tunning

原文地址：https://www.cnblogs.com/NiBosS/p/12052688.html

Copyright © 2011-2022 走看看