13.scrapy框架的日志等级和请求传参
今日概要
- 日志等级
- 请求传参
- 如何提高scrapy的爬取效率
今日详情
一.Scrapy的日志等级
- 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息。
- 日志信息的种类:
ERROR : 一般错误
WARNING : 警告
INFO : 一般的信息
DEBUG : 调试信息
- 设置日志信息指定输出:
在settings.py配置文件中,加入
LOG_LEVEL = ‘指定日志信息种类’即可。
LOG_FILE = 'log.txt'则表示将日志信息写入到指定文件中进行存储。
二.请求传参
- 在某些情况下,我们爬取的数据不在同一个页面中,例如,我们爬取一个电影网站,电影的名称,评分在一级页面,而要爬取的其他电影详情在其二级子页面中。这时我们就需要用到请求传参。
- 案例展示:爬取www.id97.com电影网,将一级页面中的电影名称,类型,评分一级二级页面中的上映时间,导演,片长进行爬取。
爬虫文件:
items文件:
管道文件:
三.如何提高scrapy的爬取效率
测试案例:爬取校花网校花图片 www.521609.com
配置文件:
2017已过半,这半年,你累吗?
2017已过半,这半年,你累吗?
程序员的一个好习惯,你有几个?
程序员的一个好习惯,你有几个?
程序员的一个好习惯,你有几个?
深拷贝与浅拷贝
understanding android build layer · Dylan
Markdown语法
npm参考手册
- 最新文章
-
吴裕雄 10-MySQL插入数据
吴裕雄 09-MySQL删除数据表
吴裕雄 08-MySQL创建数据表
吴裕雄 06-MySQL选择数据库
吴裕雄 07-MySQL数据类型
吴裕雄 05-mysql删除数据库
吴裕雄 03-mysql连接
吴裕雄 04-mysql创建数据库
【Codeforces Round #431 (Div. 2) A】Odds and Ends
【Codeforces Round #431 (Div. 2) B】 Tell Your World
- 热门文章
-
【Codeforces Round #431 (Div. 2) C】From Y to Y
【CS Round #44 (Div. 2 only) D】Count Squares
【Codeforces Round #429 (Div. 1) B】Leha and another game about graph
【2017 Multi-University Training Contest
【CS Round #44 (Div. 2 only) C】Check DFS
Data analysis system
Jquery操作复选框总结
自学编程的六点技巧
自学编程的六点技巧
自学编程的六点技巧