爬虫 - 走看看

zoukankan html css js c++ java

爬虫
1. 编码方式和解码方式必须保持一致
2. HTTPS=HTTP(超文本传输协议)+SSL(安全套接字层)，port：443
3. 爬虫模拟浏览器发送请求，获取响应，一种按照一定的规则，自动的抓取互联网信息的程序---只要是浏览器能做的事情，原则上，爬虫都可以做
4. 聚焦爬虫，url-->发送请求，获取响应-->提取url-->提取数据-->保存
5. q 权重
6. HTTP常见请求头
7. post--图片，表单，登录注册。一般情况下都会用get
8. 200：成功
  302/307：临时转移至新的url
  404：not found
  500：服务器内部错误
9. 浏览器发送HTTP请求的过程
10. DNS 域名解析
11. 爬虫的分类
  1.通用爬虫：指搜索引擎的爬虫
  2.聚焦爬虫：针对特定的几个网站
13. ROBOTS协议
14. 爬虫要根据当前url地址对应的响应为准，当前url地址的elements的内容和url的响应不一样
15. 页面上的数据在哪里
  1.当前url地址对应的响应中
  2.其他的url地址对应的响应中
  　　ajax请求的
  3.js生成
  　　部分数据在响应中
  　　全部通过js生成
16. 发送简单的请求
  通过requests发送请求
  response = request.get(url)
  常用方法
  response.text
  response.content ==> 获取请求头
  response.status_code ==> 获取状态码
  response.request.headers ==> 获取请求头
  response.request.url==> 获取请求的url地址
  response.headers ==> 获取响应头
17. assert (断言)+布尔类型的判断
18. 发送带参数的请求
  kw = {"wd":"长城"}
  url = “http://www.baidu.com”
  hearders = {字典形式，请求头}
  requests.get(url,params=kw，hearders = hearders)
查看全文

相关阅读:
纪念我用word发布的第一篇文章
 第一个SpringMVCHelloWorld
JSTL学习笔记
 bonecp的使用
 hdu 1556 树状数组
 hdu 1561 树形DP
MYSQL使用笔记
 Android中简单实现Spinner的数据绑定
 Android中利用Application实现多个Activity间共享数据
 技术到底重要不重要？

原文地址：https://www.cnblogs.com/mujun95/p/11875432.html