Python爬虫学习：一些关于爬虫的知识的充电

zoukankan html css js c++ java

Python爬虫学习：一些关于爬虫的知识的充电
什么是Http和Https
- http协议：全称是HyperText Transfer Protocol，中文意思是超文本传输协议，是一种发布和接收Html页面的方法。默认的端口号是80
- https协议：是http协议的加密版本，在HTTP下加入了SSL层。服务器端口号是443
在浏览器中发送一个Http请求的过程
1. 当用户在浏览器的地址栏输入一个url并点下确定键时，浏览器会向web服务器发送HTTP请求，HTTP请求主要有GET和POST两种方法
2. 发送过request请求后，服务器会返回一个response文件对象给浏览器
3. 浏览器分析response中的HTML，如果其中引入了其他的一些文件（css文件，js文件，等等）浏览器会自动再次发送request请求去获取这些文件
4. 当所有的文件都下载下来以后，网页会根据html的语法，在页面上完整的显示出来
URL的一些讲解

URL：（Uniform Resource Locator的缩写），统一资源定位符。一个url的组成：
scheme://host:port/path/?key=value
- scheme:代表访问协议，一般为http或者https以及ftp等等
- host：主机名，域名
- port：端口号，当你访问一个网站的时候，默认的就是80端口
- path：查找的路径
- key=value：get请求的参数
在浏览器中请求一个url，浏览器会对这个url进行一个编码。除了英文字母，数字和部分符号以外，其他的全部使用百分号+十六进制码值进行编码

常用的请求方式

在Http协议中定义了八种请求方式，这里介绍两种最常用的
- get请求：一般情况下，只从服务器获取数据下来，并不会对服务器资源产生影响的时候我们用GET，GET请求的参数在url后面使用？隔开，参数之间用&隔开
- post请求：向服务器发送数据（登录）、上传文件等，会对服务其的资源产生影响的时候使用POST请求，请求的数据在请求体当中。
请求头中的常见的参数

在http协议中，向服务器发送一个请求，数据分为三个部分，把数据放在url中（get请求）、把数据放在body请求体当中（post请求）、把数据放在head中。
- User-Agent：浏览器的标识。如果我们不填写的话，默认的爬虫的User-Agent就是Python，浏览器可以轻易知道你是一个爬虫，所以建议每次都带上User-Agent
- Referer：表明当前这个请求是从哪一个url过来的。这个一般也可以做成反扒的，如果不是指定的url跳转过来的就返回一个假数据
- Cookie：http协议是无状态协议，也就是说，同一个人发送来个请求，服务器是无法分辨是一个人发送的还是两个人发送的，因此就有了cookie作为一个标识，标识是我，我们做登录的时候必须用到Cookie
常见的一些状态码
- 200：请求正常，也就是成功
- 301：永久重定向，也就是说服务器指定的跳转页面、
- 302：临时重定向，eg：有些页面必须登录才能访问，而你没有登录，就会跳转到登录的页面
- 400：找不到
- 403：服务器拒绝访问，权限不够，在Django中，Post请求的时候，总会有一个csrf_token 的东西，如果没有的，而服务器有开启的csrf的中间件，呵，妥妥的403
- 500：服务器的内部错误，也就是服务器出BUG了
查看全文

相关阅读:
jenkins:用jenkins通过ssh部署jar包到远程linux机器（jdk 15 / jenkins 2.257）
linux(centos8):安装java jdk 15 (java 15)
38. 外观数列迭代
 58. 最后一个单词的长度
 kmp字符串匹配
 单词规律
 1502. 判断能否形成等差数列
 1496. 判断路径是否相交
 1475. 商品折扣后的最终价格
 一维数组的动态和

原文地址：https://www.cnblogs.com/smiling-crying/p/9348563.html

Python爬虫学习：一些关于爬虫的知识的充电

什么是Http和Https

在浏览器中发送一个Http请求的过程

URL的一些讲解

常用的请求方式

请求头中的常见的参数

常见的一些状态码