数据获取——爬虫-1

zoukankan html css js c++ java

数据获取——爬虫-1
- 从今天开始，我将在我的博客中更新我的学习笔记和我的学习心得。我现在正在学习崔庆才老师的爬虫相关课程。相关视频下载到本地大概也有将近一年了吧，对相关内容零零散散也看了有一些，总体来说没啥印象，更别说体系了。从上周开始，我立志一个月内将其看完，更新学习笔记。*
立志不做马来人！爬虫在行动

爬虫的基本流程
1. 发起请求：HTTP库向目标站点发起请求（Request），Request中最好还包含一些配置信息，等待服务器响应。
2. 获取相应内容：如果服务器正常相应，会返回相应的页面内容（Response）；
3. 解析内容：Response的类型有很多种，需要使用不同方法进行解析。
4. 数据存储：根据要求存储为相应的类型。
请求(Request)和响应(Response)

什么是Request和Response

Request的类型

主要有GET和POST两种，其余请求方法不常用，所以进行解释
1. GET：方便
  
  请求内容全部包含在网址中
  
  可以通过网址直接提交Request
2. POST：安全
  
  请求内容包含在隐藏在FormData中
  
  构建FormData进行访问
URL

URL：统一资源定位器，定位网页中元素的下载位置。
- 以下所有内容均可以在任意网页中按F12，在网页后端中看到，chrome中一般在“Elements"、”Source“、”Console“和“Network”选项卡中查找，FireFox浏览器“网络”、“控制台”和“查看器”选项卡中查找。*
- 下述四个四项内容均在“网络”选项卡中，任意点开一个请求即可找到。 *
请求头

请求头中包含一些配置信息，包括浏览器信息。

请求体

请求时额外提交的信息，如POST中的FormData。

相应状态（status_code）

有多种相应状态：
- 200：成功
- 301：跳转
- 404：找不到页面
- 502：服务器错误
响应头(headers)

服务器对浏览器的一些设置要求。

响应体(text)

请求的资源内容

什么样的数据可以被抓取
1. 网页文本：HTML或者Json格式文本
2. 图片:获取二进制文件（content），保存问相应图片。
3. 视频：方法同图片。
4. 其他：能请求到的一切文件。
解析方式
1. 直接处理：特别简单的网页（内容以字典形式存储）。
2. json解析：
3. 正则表达式：提取HTML代码中相应的文本。
4. BeautifulSoup、pyQuery、Xpath等解析库
怎样解决Javascript渲染问题
1. 分析Ajax请求。
2. 使用Selenium、WebDriver模拟一个浏览器加载。
3. 使用Splash
4. pyV8、Gost.py模拟加载
存储数据
1. 文本：纯文本、XML格斯、Json格式等。
2. 关系型数据库：结构化表单存储
3. 非关系型数据库：key-value型存储
4. 二进制文件：视频、图片
查看全文

相关阅读:
bzoj 3993: [SDOI2015]星际战争
 bzoj 4066: 简单题
 bzoj 3611: [Heoi2014]大工程
 bzoj 3530: [Sdoi2014]数数
 bzoj 3529: [Sdoi2014]数表
 bzoj 3504: [Cqoi2014]危桥
 bzoj 3489: A simple rmq problem
bzoj 3211: 花神游历各国
 bzoj 3196: Tyvj 1730 二逼平衡树
 bzoj 3172: [Tjoi2013]单词

原文地址：https://www.cnblogs.com/lizhe-Ning/p/11339541.html

数据获取——爬虫-1

立志不做马来人！爬虫在行动

爬虫的基本流程

请求(Request)和响应(Response)

什么是Request和Response

Request的类型

URL

请求头

请求体

相应状态（status_code）

响应头(headers)

响应体(text)

什么样的数据可以被抓取

解析方式

怎样解决Javascript渲染问题

存储数据