转 Python爬虫入门四之Urllib库的高级用法 - 走看看

zoukankan html css js c++ java

转 Python爬虫入门四之Urllib库的高级用法

静觅 » Python爬虫入门四之Urllib库的高级用法

1.设置Headers

有些网站不会同意程序直接用上面的方式进行访问，如果识别有问题，那么站点根本不会响应，所以为了完全模拟浏览器的工作，我们需要设置一些Headers 的属性。

首先，打开我们的浏览器，调试浏览器F12，我用的是Chrome，打开网络监听，示意如下，比如知乎，点登录之后，我们会发现登陆之后界面都变化了，出现一个新的界面，实质上这个页面包含了许许多多的内容，这些内容也不是一次性就加载完成的，实质上是执行了好多次请求，一般是首先请求HTML文件，然后加载JS，CSS 等等，经过多次请求之后，网页的骨架和肌肉全了，整个网页的效果也就出来了。

拆分这些请求，我们只看一第一个请求，你可以看到，有个Request URL，还有headers，下面便是response，图片显示得不全，小伙伴们可以亲身实验一下。那么这个头中包含了许许多多是信息，有文件编码啦，压缩方式啦，请求的agent啦等等。

其中，agent就是请求的身份，如果没有写入请求身份，那么服务器不一定会响应，所以可以在headers中设置agent,例如下面的例子，这个例子只是说明了怎样设置的headers，小伙伴们看一下设置格式就好。

未完

查看全文

相关阅读:
快速排序法
 ios随机数
 ios简单更改系统TabBar的高度
 ios电话拨打进行监听电话状态
 iosUISegmentedControl的基本设置
 ios使用xcode进行Archive打包上传出现的常见错误
 ios实现文字的自适应
 ios 给view添加一个渐变的背景色
 iOSNSDate的相关操作
 ios导航栏又按钮添加图片后使其保持原色

原文地址：https://www.cnblogs.com/njczy2010/p/5549705.html

Copyright © 2011-2022 走看看