spider基础 - 走看看

zoukankan html css js c++ java

spider基础

1、爬虫框架过程：
　　1、创建项目
　　　　　　scrapy startproject yangguang

　　2、创建爬虫
　　　　　　scrapy genspider yg 域名

　　　　创建 crawlspider
　　　　　　scrapy genspider -t crawl csdn csdn.com

　　2、运行爬虫
　　　　　　scrapy crawl **

2、什么是日志等级？
　　　　logging模块,可以输出到屏幕，可以保存到本地

　　1. logging.CRITICAL - for critical errors (highest severity)

　　2. logging.ERROR - for regular errors

　　3. logging.WARNING - for warning messages

　　4. logging.INFO - for informational messages

　　5. logging.DEBUG - for debugging messages (lowest severity)

　　动态显示log
　　　　　　　　tail -f xxx.log

3、Scrapy shell是一个交互终端，我们可以在未启动spider的情况下尝试及调试代码，
　　也可以用来测试XPath表达式
　　使用方法：
　　　　scrapy shell http://www.itcast.cn/channel/teacher.shtml

　　　　dir(scrapy)

　　response.url：　　　　当前响应的url地址
　　response.request.url：　当前响应对应的请求的url地址

　　response.headers：　　响应头
　　response.body：　　响应体，也就是html代码，默认是byte类型
　　response.requests.headers：当前响应的请求头

life is short,i need python

查看全文

相关阅读:
2019-2020-1 20199325《Linux内核原理与分析》第十二周作业
 2019-2020-1 20199325《Linux内核原理与分析》第十一周作业
 2019-2020-1 20199325《Linux内核原理与分析》第九周作业
 2019-2020-1 20199325《Linux内核原理与分析》第八周作业
 20199328 2019-2020-2 《网络攻防实践》第3周作业
 20199328 2019-2020-2 《网络攻防实践》第2周作业
 20199328 2019-2020-2 《网络攻防实践》第1周作业
 20199328《网络攻防实践》假期作业
 2019-2020-1 20199328《Linux内核原理与分析》第十二周作业
 2019-2020-1 20199328《Linux内核原理与分析》第十一周作业

原文地址：https://www.cnblogs.com/lvhonglei-python/p/7582840.html

Copyright © 2011-2022 走看看