爬虫基本原理 - 走看看

zoukankan html css js c++ java

爬虫基本原理
一、基本流程

　　1.发起请求：通过HTTP库向目标站点发起请求，即发送一个request，请求可以包含额外的headers等信息，等待服务器响应

　　2.解析内容：得到的内容可能是HTML，可以用正则表达式，网页解析库进行解析；可能是Json，可以直接转换为Json对象解析；可能是二进制数据，可以保存或者进一步处理

　　3.获取响应内容：如果服务器能正常响应，会得到一个response，response的内容可能有HTML,Json字符串，二进制数据（图片、视频）等类型

　　4.保存数据：可以保存为文本，也可以保存在数据库

二、Request

　　1.请求方式：

　　　　（1）GET：请求的参数都在网址内

　　　　（2）POST：不在网址内

　　2.URL

　　3.请求头：包含请求时的头部信息，如User-Agent、Host、Cookies等信息

　　4.请求时额外携带的数据，如表单提交时的表单数据

三、Response
1. 响应状态：200为正常状态、404未找到页面
2. 响应头：内容类型、长度、服务器信息、设置Cookie
3. 响应体：包含HTML、图片二进制
　　
查看全文

相关阅读:
在Ubuntu_meta 16.04中设置默认Python3.5的命令
 树莓派安装中文输入法Fcitx及Google拼音输入法
 树莓派安装ubuntu_meta并配置开发环境
 业务代表模式
 MVC 模式
 访问者模式
 模板模式
 Linux进程调度与抢占
 IP地址
 策略模式

原文地址：https://www.cnblogs.com/yejiang/p/10293798.html

Copyright © 2011-2022 走看看