scrapy框架的日志等级和请求传参
一.Scrapy的日志等级
- 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息。
- 日志信息的种类:
ERROR : 一般错误
WARNING : 警告
INFO : 一般的信息
DEBUG : 调试信息
- 设置日志信息指定输出:
在settings.py配置文件中,加入
LOG_LEVEL = ‘指定日志信息种类’即可。
LOG_FILE = 'log.txt'则表示将日志信息写入到指定文件中进行存储。
二.请求传参
- 在某些情况下,我们爬取的数据不在同一个页面中,例如,我们爬取一个电影网站,电影的名称,评分在一级页面,而要爬取的其他电影详情在其二级子页面中。这时我们就需要用到请求传参。
- 案例展示:爬取www.id97.com电影网,将一级页面中的电影名称,类型,评分一级二级页面中的上映时间,导演,片长进行爬取。
爬虫文件:
items文件:
管道文件:
三.如何提高scrapy的爬取效率
测试案例:爬取校花网校花图片 www.521609.com
配置文件:
java内部类 2016年12月13号
接口与抽象类的区别与联系 2016年12月13日
多态的向上转型和向下转型 2016.12.8
构造器的调用顺序 2016.12.8
static final 和final的区别 2016.12.07
根据进程号查询占用资源多的线程
Intellij idea启动项目提示"ClassNotFoundException"
IntelliJ IDEA setup JDK无效
(转)面试合集
- 最新文章
-
k8s的pod生命周期
kubernetes基础架构及原理
LVS+Keepalived-DR模式负载均衡高可用集群
LVS基于DR模式搭建负载均衡群集
LVS基于NAT模式搭建负载均衡群集
kubeadm方式安装kubernetes
Twsited异步网络框架
css
Python学习笔记——进阶篇【第九周】———MYSQL操作
Python学习笔记——进阶篇【第九周】———协程
- 热门文章
-
Python学习笔记——进阶篇【第九周】———线程、进程、协程篇(队列Queue和生产者消费者模型)
Python学习笔记——进阶篇【第八周】———进程、线程、协程篇(FTP断点续传作业&批量主机管理工具)
Python学习笔记——进阶篇【第八周】———进程、线程、协程篇(多线程与进程池)
Python学习笔记——进阶篇【第八周】———进程、线程、协程篇(异常处理)
Python学习笔记——进阶篇【第八周】———进程、线程、协程篇(Socket编程进阶&多线程、多进程)
Python学习笔记——基础篇【第七周】———FTP作业(面向对象编程进阶 & Socket编程基础)
int 与Integer的用法与区别
LinkedList方法总结 ListIterator和Iterator的区别
产生数组的方法 2016年12月26号
接口基本知识 2016年12月24日