Scrapy shell 带头部headers请求 - 走看看

zoukankan html css js c++ java

Scrapy shell 带头部headers请求
scrapy shell 命令请求网页：

scrapy shell "https://www.baidu.com"

就会得到请求的网页源代码，我们通过response.text可以获取请求之后的源代码，然后就可以通过正则匹配我们想要的内容

2.然后上面请求方法，对一些不做限制的网站请求时ok，但是就如之前所讲的，很多网站对没有设置请求头的请求都是禁止访问，所以我们的爬虫中都设置了headers头部，那么在scrapy如何设置请求头呢？

问题分析，我们设置请求头很大一部分其实是在于headers，所以我们在scrapy中设置user-agent其实就完成了请求headers头部的设置。

scrapy shell -s USER_AGENT="" request_url 就可以完成带头部的请求添加，如请求知乎（不带头部请求时400错误）：
scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0" https://www.zhihu.com/question/285908404
这样我们就可在scrapy查看我们请求的原网页和验证我们写的正则表达式

3.通过上述请求后，我们通过response.text可以获得我们请求的源码，那么如何保存呢？

保存代码其实跟编辑器中的代码一样：
with open('d:/zhihu_question.html','wb') as f: f.write(response.text.encode('utf-8'))
原文链接：https://blog.csdn.net/godot06/article/details/81587242
查看全文

相关阅读:
hive sql 解析json
解决华为手机无法安装未签名apk问题（该安装包未包含任何证书）
对马尔科夫决策过程的代码补充解释
 对马尔科夫决策过程MDP（Markov Decision Processes）的一点理解
 使用Web在PC和安卓之间传输文件(Transfer files via wifi)
记录下自己的生活状态，昏昏沉沉的半年，迷茫的未来
 __repr__和pass在python中的含义
 LaTeX基础调节，调节行距，字体大小，字体，页边距
 LaTeX怎么让一行中的一部分右对齐
 Tkinter主动刷新（强制刷新）

原文地址：https://www.cnblogs.com/yoyowin/p/12348029.html

Copyright © 2011-2022 走看看