scrapy框架的日志等级和请求传参
一.Scrapy的日志等级
- 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息。
- 日志信息的种类:
ERROR : 一般错误
WARNING : 警告
INFO : 一般的信息
DEBUG : 调试信息
- 设置日志信息指定输出:
在settings.py配置文件中,加入
LOG_LEVEL = ‘指定日志信息种类’即可。
LOG_FILE = 'log.txt'则表示将日志信息写入到指定文件中进行存储。
二.请求传参
- 在某些情况下,我们爬取的数据不在同一个页面中,例如,我们爬取一个电影网站,电影的名称,评分在一级页面,而要爬取的其他电影详情在其二级子页面中。这时我们就需要用到请求传参。
- 案例展示:爬取www.id97.com电影网,将一级页面中的电影名称,类型,评分一级二级页面中的上映时间,导演,片长进行爬取。
爬虫文件:
items文件:
管道文件:
三.如何提高scrapy的爬取效率
测试案例:爬取校花网校花图片 www.521609.com
配置文件:
sweetalert
js认清this的第一步
Creating default object from empty value in PHP?
matplotlib画图
python解析库
zabbix监控ssl证书过期时间
aws 预留实例到期监控
aws ec2挂载 s3
aliyun挂载oss
- 最新文章
-
Arduino 各种模块篇 震动模块 vibrator module
python JSON API duckduckgo search engine 使用duckduckgo API 尝试搜索引擎
Arduino 各种模块篇 GPRS module 手机模块 短信 电话 上网 for texting, calling, internet
Arduino 各种模块篇 粉尘传感器 dust sensor 空气质量检测
Arduino 各种模块篇 光敏感应模块 light sensor
linuxmint 15/ ubuntu 13.04 install OpenERP client 6.0.4
Arduino 各种模块篇 震动模块 vibrator
Arduino 各种模块篇 motor shield
关于单片机数码管的消影
Altium Designer 快捷键使用整理