爬虫 - 走看看

zoukankan html css js c++ java

爬虫

1. 请求过程与网页基础

url请求的网址，统一资源定位符号，唯一确定我们想要的资源

请求过程

客户端通常指web浏览器或APP向服务器发送请求，服务器接收到请求，进行处理，并向客户端发起响应

2. 请求

请求：由客户端向服务器发出的，可以分为四个部分，请求方法，请求网址，请求头，请求体

常见的8种请求方法

get：请求页面并返回页面内容

post：用于提交表单数据或上传文件，数据包含在请求体中

put：从客户端向服务区发送数据取代指定文档中的内容

delete：请求服务器删除指定的内容

connect：把服务器当做跳板，让服务器代替客户端访问其他网页

options：回显服务器收到的请求用于测试或诊断

### get和post请求的区别

1. get请求中的参数包含在url里面，数据可以在url中看到而post请求的url不会包含这些数据，post数据都是通过表单形式传输的，会包含在请求体中

2. get请求提交的数据最多只有1024字节，而post没有限制

3. post请求比get相对安全

# 请求头

请求头，用来说明服务器要使用的附加信息，重点掌握：Accept，Cookie，Referer，User-Agent，Host

1.Accept：请求报头域，用于指定客户端可接受那些类型的信息 # 重点

2.Cookie：也常用复数形式Cookie，这是网站为了辨别用户进行会话跟踪而存储在用户本地的数据。它是主要功能是维护当前访问会话。例如，我们输

用户名和密码成功登录某个网站后，服务器会用会话保存登录状态信息，后面我们每次刷新或请求该站点的其他页面时，会发现都是登录状态，这就

Cookie的功劳。Cookie里面有信息标识了我们每次刷新或请求该站点是其他页面时，会发现都是登录状态，这就是Cookie的功劳。Cookie里面有信息标

了我们所对应的服务器的对话，每次浏览器在请求该站点的页面时，都会在请求头中加上Cookies并将其发送给服务器，服务器通过Cookies识别出是我

自己，并且查出当前状态是登录状态，所以返回结果加上登录之后才能看到的网页内容 # 重点

3.Referer：此内容用来标识这个请求是从哪个页面发过来的，服务器可以拿到这一信息并做相应的处理。如作来源统计、防盗链处理等 # 微重点

4.User-Agent：简称UA，它是一个特殊的字符串头，可以使用服务器识别客户使用的操作系统及版本，浏览器及版本等信息。在做爬虫时加上此信息，

以伪装为浏览器，如果伪装为浏览器：如果不加，很有可能会被识别为爬虫 # 重点

5.x-requested-with：XMLHttpRequest # 代表ajax请求

6.Accept-Language：指定客户端可接受的语言类型

7.Accept-Encodeing：指定客户端可接受的内容编码

8.Content-Type：也叫互联网媒体类型（Internet Media Type）或者 MIME 类型，在HTTP协议消息头中，它表示具体请求中媒介类型信息，；例如

text/html代表HTML格式。image/gif代表GIF图片，application/json代表JSON类型

请求体：（古诗文网登陆实例）

请求体一般承载的内容是POST请求中的表单数据，而对于GET请求请求体则为空

get获取页面资源

get和post是否都能向服务器传递数据

查看全文

相关阅读:
常见SQL语句
 测试用例的设计
 移动端测试注意事项
 markdown编辑模式基本使用
 常用修改请求或返回方法
 前端性能测试工具Lighthouse
presto环境部署
 pyenv管理python版本
 python2.6.6升级python2.7.14
InfluxDB权限认证机制

原文地址：https://www.cnblogs.com/lishanglin/p/13062837.html

爬虫

1. 请求过程与网页基础

2. 请求