- 编码方式和解码方式必须保持一致
- HTTPS=HTTP(超文本传输协议)+SSL(安全套接字层),port:443
- 爬虫模拟浏览器发送请求,获取响应,一种按照一定的规则,自动的抓取互联网信息的程序---只要是浏览器能做的事情,原则上,爬虫都可以做
- 聚焦爬虫,url-->发送请求,获取响应-->提取url-->提取数据-->保存
- q 权重
- HTTP常见请求头
-
post--图片,表单,登录注册。一般情况下都会用get
- 200:成功
302/307:临时转移至新的url
404:not found
500:服务器内部错误 - 浏览器发送HTTP请求的过程
- DNS 域名解析
-
爬虫的分类
1.通用爬虫:指搜索引擎的爬虫
2.聚焦爬虫:针对特定的几个网站 - ROBOTS协议
- 爬虫要根据当前url地址对应的响应为准,当前url地址的elements的内容和url的响应不一样
- 页面上的数据在哪里
1.当前url地址对应的响应中
2.其他的url地址对应的响应中
ajax请求的
3.js生成
部分数据在响应中
全部通过js生成 - 发送简单的请求
通过requests发送请求
response = request.get(url)
常用方法
response.text
response.content ==> 获取 请求头
response.status_code ==> 获取状态码
response.request.headers ==> 获取 请求头
response.request.url==> 获取 请求的url地址
response.headers ==> 获取响应头 - assert (断言)+布尔类型的判断
- 发送带参数的请求
kw = {"wd":"长城"}
url = “http://www.baidu.com”
hearders = {字典形式,请求头}
requests.get(url,params=kw,hearders = hearders)