scrapy框架的日志等级和请求传参
一.Scrapy的日志等级
- 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息。
- 日志信息的种类:
ERROR : 一般错误
WARNING : 警告
INFO : 一般的信息
DEBUG : 调试信息
- 设置日志信息指定输出:
在settings.py配置文件中,加入
LOG_LEVEL = ‘指定日志信息种类’即可。
LOG_FILE = 'log.txt'则表示将日志信息写入到指定文件中进行存储。
二.请求传参
- 在某些情况下,我们爬取的数据不在同一个页面中,例如,我们爬取一个电影网站,电影的名称,评分在一级页面,而要爬取的其他电影详情在其二级子页面中。这时我们就需要用到请求传参。
- 案例展示:爬取www.id97.com电影网,将一级页面中的电影名称,类型,评分一级二级页面中的上映时间,导演,片长进行爬取。
爬虫文件:
items文件:
管道文件:
三.如何提高scrapy的爬取效率
测试案例:爬取校花网校花图片 www.521609.com
配置文件:
[洛谷P3942] 将军令
[洛谷P2127] 序列排序
[USACO07FEB]新牛棚Building A New Barn
[洛谷P1120] 小木棍 [数据加强版]
[洛谷P1438] 无聊的数列
我的Emacs配置
[CQOI2015]任务查询系统
可持久化数组入门
学习openstack(六)
- 最新文章
-
Redis总结笔记(二):C#连接Redis简单例子
bzoj 1176 Mokia(CDQ分治,BIT)
bzoj 3295 [Cqoi2011]动态逆序对(cdq分治,BIT)
bzoj 3263 陌上花开(cdq分治,BIT)
bzoj 2154 Crash的数字表格(莫比乌斯反演及优化)
bzoj 3529 [Sdoi2014]数表(莫比乌斯反演+BIT)
bzoj 2820 YY的GCD(莫比乌斯反演)
bzoj 2301 [HAOI2011]Problem b(莫比乌斯反演)
bzoj 3110 [Zjoi2013]K大数查询(树套树)
bzoj 3551 [ONTAK2010]Peaks加强版(kruskal,主席树,dfs序)