zoukankan html css js c++ java

《Python3 网络爬虫开发实战》读书笔记1（第2章：爬虫基础）

之前看的是《Python网络爬虫权威指南》，看到了第三章，进度有些慢，可能是我领悟比较低。本来打算一本一本来，现在觉得变通一下可能比较好，所以想先补一下基础知识。

2.1 HTTP基本原理

2.1.1 URI和URL

URI，全称：Uniform Resource Identifier，即统一资源标志符；

URL，全称：Universal Rescource Locator，即统一资源定位符。

URL是URI的子集，URI还包括一个子类叫做URN，它的全称为Universal Rescource Name,即统一资源名称。

2.1.2 超文本（hypertext)

我们在浏览器里看到的网页就是超文本解析而成的，而网页的源代码HTML就可以称作超文本。

2.1.3 HTTP和HTTPS

HTTP，全称 Hyper Text Transfer Protocol，即超文本传输协议。HTTP协议是用于从网络传输超文本数据到本地浏览器的传送协议，它能保证高效而准确地传送超文本文档。

HTTPS，全称 Hypertext Transfer Protocol over Secket Layer,是以安全为目标的HTTP通道，简单讲就是HTTP安全版，即HTTP下加入SSL层。

HTTPS地安全基础是SSL，因此通过他传输的内容都是经过SSL加密的，它的主要作用可以分为两种。

建立一个信息安全通道来保证数据传输的安全。
确认网站的真实性，凡是使用了HTTPS的网站，都可以通过点击浏览器地址栏的锁头标志来查看网站认证之后的真是信息，也可以通过CA机构颁发的安全签章来查询。

2.1.4 HTTP请求过程

打开浏览器的开发者工具，选择Network监听组件。这里访问百度https://www.baidu.com/，输入URL后回车：

首先观察第一个网络请求www.baidu.com.

其中各列的含义如下。

第一列 Name：请求的名称，一半会将URL的最后一部分当作名称。
第二列 Status：响应的状态码，这里显示200，代表响应是正常的。
第三列 Type：请求的文档类型。document，代表我们这次请求的是一个HTML文档，内容就是一些HTML代码。
第四列 Initiator：请求源。用来标记请求是由哪个对象或进程发起的。
第五列 Size：从服务器下载的文件和请求的资源大小。如果是从缓存中取得的资源，则该列会显示from cache。
第六列 Time：发起请求到获取响应所用的时间。

2.1.5 请求

1、请求方法

常见的请求方法有两种：GET和POST。

在浏览器中直接输入URL并回车，这是GET请求，请求的参数会直接包含到URL里。例如，在百度中搜索Python，这就是一个GET请求，链接为https://www.baidu.com/s?wd=Python，这里参数wd表示要搜寻的关键字。

POST请求达索在表单提交时发起。比如一个登录表单，输入用户名和密码后，点击“登录”按钮，这通常会发起一个POST请求，其数据通常以表单的形式传输，而不会体现在URL中。

GET和POST请求方法区别：

GET请求中的参数包含在URL里，数据可以在URL中看到，而POST请求的URL不会包含这些数据，数据都是通过表单形式传输的，会包含在请求体中。
GET请求提交的数据最多只有1024个字节，而POST方式是没有限制的。

表2-1 其他请求方法

方法	描述
HEAD	类似于GET请求，只不过返回的响应中没有具体的内容，用于获取报头
PUT	从客户端向服务器传送的数据取代指定文档中的内容
DELETE	请求服务器删除指定的页面
CONNECT	把服务器当作跳板，让服务器代替客户端访问其他网页
OPTIONS	允许客户端查看服务器的性能
TRACE	回显服务器收到的请求，主要用于测试或诊断

2、请求头

用来说明服务器要使用的附加信息。

Accept:请求报头域，用于指定客户端可接受哪些类型的信息。

Accept-Language:指定客户端可接受的语言类型。

Accept-Encoding：指定客户端可接受的内容编码。

Host：用于指定请求资源的主机IP和端口号，其内容为请求URL的原始服务器或网关的位置。

Cookie：这是网站为了辨别用户进行会话跟踪而存储在用户本地的数据。它的主要功能是维持当前访问会话。

Referer：此内容用来标识这个请求是从哪个页面发过来的，服务器可以拿到这一信息并作相应的处理。

User-Agent：简称UA，它是一个特殊的字符串头，可以使服务器识别客户i使用的操作系统及版本、浏览器及版本等信息。在做爬虫时加上此信息，可以伪装成浏览器，否则可能会被识别出。

Content-Type：也叫做互联网媒体类型或者MIME类型，在HTTP协议消息头中，它用来表示具体请求中的媒体类型信息。

3、请求体

请求体一般承载的内容是POST请求的表单数据，而对于GET请求，请求体则为空。

表2-2 Content-Type和POST提交数据方式的关系

Content-Type	提交数据的方式
application/x-www-urlencoded	表单数据
multipart/form-data	表单文件上传
application/json	序列化JSON数据
text/xml	XML数据

在爬虫中，如果构造POST请求，需要使用正确的Content-Type，不然可能导致POST提交后无法正常响应。

2.1.6 响应

1、响应状态码

表2-3 常见的错误代码及错误原因

	状态码	说明	详情
消息响应	100	继续	请求者应当继续提出请求。服务器已收到请求的一部分，正在等待其他部分
消息响应	101	切换协议	请求者已要求服务器切换协议，服务器已确认并准备切换

	状态码	说明	详情
成功响应	200	成功	服务器已成功处理了请求
	201	已创建	请求成功并且服务器创建了新的资源
	202	已接受	服务器已接受请求，但尚未处理
	203	非授权信息	服务器已成功处理了请求，但返回的信息可能来自另一个源
	204	无内容	服务器成功处理了请求，但没有返回任何内容
	205	重置内容	服务器成功处理了请求，内容被重置
	206	部分内容	服务器成功处理了部分请求

	状态码	说明	详情
重定向	300	多种选择	针对请求，服务器可执行多种操作
	301	永久移动	请求的网页已永久移动到新位置，即永久重定向
	302	临时移动	请求的网页暂时跳转到其他页面，即暂时重定向
	303	查看其他位置	如果原来的请求是POST，重定向目标文档应该通过GET提取
	304	未修改	此次请求返回的页面未修改，继续使用上次的资源
	305	使用代理	请求者应该使用代理访问该页面
	307	临时重定向	请求的资源临时从其他位置响应

	状态码	说明	详情
客户端错误	400	错误请求	服务器无法解析该请求
	401	未授权	请求没有进行身份验证或验证未通过
	403	禁止访问	服务器拒绝此请求
	404	未找到	服务器找不到请求的页面
	405	方法禁用	服务器禁用了请求中指定的方法
	406	不接受	无法使用请求的内容响应请求的页面
	407	需要代理授权	请求者需要使用代理授权
	408	请求超时	服务器请求超时
	409	冲突	服务器在完成请求时发生冲突
	410	已删除	请求的资源已永久删除
	411	需要有效长度	服务器不接受不含有效内容长度标头字段的请求
	412	未满足前提条件	服务器未满足请求者在请求中设置的其中一个前提条件
	413	请求实体过大	请求实体过大，超出服务器的处理能力
	414	请求URL过长	请求网址过长，服务器无法处理
	415	不支持类型	请求格式不被请求页面支持
	416	请求范围不符	页面无法提供请求的范围
	417	未满足期望值	服务器未满足期望请求标头字段的要求

	状态码	说明	详情
服务器错误	500	服务器内部错误	服务器遇到错误，无法完成请求
	501	未实现	服务器不具备完成请求的功能
	502	错误网关	服务器作为网关或代理，从上游服务器收到无效响应
	503	服务不可用	服务器目前无法使用
	504	网关超时	服务器作为网关或代理。但是没有及时从上游服务器收到请求
	505	HTTP版本不支持	服务器不支持请求中所用的HTTP协议版本

2、响应头

响应头包含了服务器对请求的应答信息。

Date：标识响应产生的时间。
Last-Modified：指定资源的最好修改时间。
Content-Type：文档类型，指定返回的数据类型
Set-Cookie：设置Cookies。响应头中的Set-Cookie告诉浏览器需要将此内容放在Cookies中，下次请求携带Cookies请求。
Expires：指定响应的过期时间，可以使代理服务器或浏览器将加载的内容更新到缓存中。如果再次访问时，就可以直接从缓存中加载，降低服务器负载，缩短加载时间。

3、响应体

响应的正文数据都在响应体中，比如请求网页时，它的响应体就是网页的HTML代码；请求一张图片时，它的响应体就是图片的二进制数据。我们做爬虫请求网页后，也解析的内容就是响应体。

在开发者工具中点击preview，就可以看到网页的源代码，也就是解析的目标。

2.2 网页基础

2.2.1 网页的组成

网页可以分为三大部分——HTML、CSS和JavaScript。HTML定义了网页的内容和结构，CSS描述了网页的布局，JavaScript定义了网页的行为。

2.2.2 节点树及节点间的关系

在HTML中，所有标签定义的内容都是节点，它们构成了一个HTML DOM树。

DOM是W3C（万维网联盟）的标准，文档对象模型，定义了访问HTML和XML文档的标准：

W3C文档对象模型是中立于平台和语言的接口，它允许程序和脚本动态地访问和更新文档地内容、结构和样式。

W3C DOM标准被分为3个部分。

核心 DOM：针对任何结构化文档地标准模型。

XML DOM：针对XML文档地标准模型。

HTML DOM：针对HTML文档地标准模型。

2.2.3 选择器

在CSS中，使用CSS选择器来定位节点。

表2-4 CSS选择器的语法规则

选择器	例子	例子描述
.class	.intro	选择class="intro"的所有节点
#id	#firstname	选择id="firstname"的所有节点
*	*	选择所有节点
element	p	选择所有p节点
element element	div p	选择div节点内部的所有p节点
element>element	div>p	选择父节点为div的所有p节点
element+element	div+p	选择紧接在div节点之后的所有p节点
[attribute]	[target]	选择带有target属性的所有节点
[attribute=value]	[target=blank]	选择target="blank"的所有节点
[attribute~=value]	[title~=flower]	选择title属性包含单词flower的所有节点
:link	a:link	选择所有未被访问的链接
:visited	a:visited	选择所有已被访问的链接
:active	a:active	选择活动链接
:hover	a:hover	选择鼠标指针位于其上的链接
:focus	input:focus	选择获得焦点的input节点
:first-letter	p:first-letter	选择每个p节点的首字母
:first-line	p:first-line	选择每个p节点的行首
:first-child	p:first-child	选择属于父节点的第一个子节点的所有p节点
:before	p:before	在每个p节点的内容之前插入内容
:after	p:after	在每个p节点的内容之后插入内容
:lang(language)	p:lang	选择带有以it开头的lang属性值的所有p节点
element1~element2	p~ul	选择前面有p节点的ul节点
[attribute^=value]	a[src^='https']	选择其src属性值以https开头的所有a节点
[attribute$=value]	a[src$='.pdf'］	选择其src属性以.pdf结尾的所有a节点
[attribute*=value]	a[src*='abc']	选择其src属性中包含abc子串的所有a节点
:first-of-type	p:first-of-type	选择属于其父节点收个p节点的所有p节点
:last-of-type	p:last-of-type	选择属于其父节点最后p节点的所有p节点
:only-of-type	p:only-of-type	选择属于其父节点唯一的p节点的所有p
:only-child	p:only-child	选择属于其父节点唯一子节点的所有p节点
:nth-child(n)	p:nth-child	选择属于其父节点的第二个子节点的所有p节点
:nth-last-child(n)	p:nth-last-child	同上,从最后一个子节点开始计数
:nth-of-type(n)	p:nth-of-type	选择属于其父节点第二个p节点的所有p节点
:nth-last-of-type(n)	p:nth-last-of-type	同上,但是从最后一个子节点开始计数
:last-child	p:last-child	选择属于其父节点最后一个子节点的所有p节点
:root	:root	根据文档的根节点
:empty	p:empty	选择没有子节点的所有p节点,包括文本节点
:target	#news:target	选择当前活动的#news节点
:enabled	input:enabled	选择每个启用的input节点
:disabled	input:disabled	选择每个禁用的input节点
:checked	input:checked	选择每个被选中的input节点
:not(selector)	:not	选择非p节点的所有节点
::selection	::selection	选择被用户选取的节点部分

2.3 爬虫的基本原理

2.3.1 爬虫概述

简单来说，爬虫就是获取网页并提取和保存信息的自动化程序。

2.3.2 JavaScript渲染页面

有时候，我我们在用urllib或requests抓取网页时，得到的源码实际和浏览器中看到的不一样。

因为在用urllib或requests等库请求当前页面时，我们得到的只是这个HTML代码，它不会帮助我们去继续加载这个JavaScript文件，这样也就看不到浏览器中的内容了。JavaScript会改变HTML中的节点，并向其添加内容，最好得到完整的页面。

2.4 会话和Cookies

HTTP的无状态是指HTTP协议对事物处理时没有记忆能力的，也就是说服务器不知道客户端是什么状态。

用于保持HTTP连接状态的技术，分别是会话和Cookies。会话在服务端，也就是网站的服务器，用来保存用户的会话信息；Cookies在客户端，也可以理解为浏览器端，有了Cookies，浏览器在下次访问网页时会自动附带上它发送给服务器，服务器通过识别Cookies并鉴定出哪个用户，然后再判断用户是否是登录状态，然后返回对应的响应。

因此在爬虫中，有时候处理需要登录才能访问的页面时，我们一般会直接将登录成功后获取的Cookies放在请求头里面直接请求，而不必重新模拟登录。

1、会话

会话，其本来的含义是指有始有终的一系列动作/消息。在Web中，会话对象用来存储特定用户会话所需的属性及配置信息。当用户请求来自应用程序的Web页时，如果该用户还没有会话，则Web服务器将自动创建一个会话对象。当会话过期或被放弃后，服务器将种植该会话。

2、Cookies

Cookies指某些网站为了辨别用户身份、进行会话跟踪而存储在用户本地终端上的数据。

以知乎为例，在浏览器开发者工具中打开Application选项卡，然后左侧会有一个Storage部分，最好一项即为Cookies，将其打点开，

每个条目都可以称为Cookies，它有如下属性：

Name：该Cookies的名称。一旦创建，该名称便不可更改。
Value：该Cookies的值。如果值为Unicode字符，需要字符编码。如果值为二进制数据，则需要使用BASE64编码。
Domain：可以访问该Cookies的域名。例如，如果设置为.zhihu.com，则所有以zhihu.com结尾的域名都可以访问该Cookie。
Max-Age:该Cookies失效的时间，单位为秒，常和Expires一起使用，通过它可以计算出其有效时间。Max-Age为正数，则该Cookie在Max Age秒之后失效。如果为负数，则关闭浏览器时失效，浏览器也不会以任何形式保存该Cookie。
Path：该Cookie的使用路径，如果设置为/path/，则只有路径为/path/的页面可以访问该Cookie。如果设置为/，则本域名下的所有页面都可以访问该Cookie
Size字段：此Cookie的大小
HTTP字段：Cookie的httponly属性，若此属性为true，则只有在HTTP头中会带有此Cookie的信息，而不能通过document.cookie来访问此Cookie
Secure：该Cookie是否仅被使用安全协议传输，安全协议有HTTPS和SSL等，在网络上传输数据之前先将数据加密。默认为false

2.5 代理的基本原理

服务器会检测某个IP在单位时间内的请求次数，如果超过了这个阈值，就会直接拒绝服务，返回一些错误信息，这种情况可以称为封IP。

代理实际上指的就是代理服务器，英文叫做proxy server，它的功能时代理网络用户去取得网络信息。

2.5.1 代理分类

1、根据协议区分

FTP代理服务器：主要用于访问FTP服务器，一般有上传、下载以及缓存功能，端口一般为21、2121等。
HTTP 代理服务器：主要用于访问网页，一般有内容过滤和缓存功能，端口一般为80、8080、3128等。
SSL/TLS代理：主要用于访问加密网站，一般有SSL或TLS加密功能（最高支持128位加密强度），端口一般为443。
RTSP代理：主要用于访问Real流媒体服务器，一般有缓存功能，端口一般为554。
Telnet代理：主要用于telnet远程控制（黑客入侵计算机时常用于隐藏身份），端口一般为23。
POP3/SMTP代理：主要用于POP3/SMTP方式收发邮件，一般有缓存功能，端口一般为11025。
SOCKS代理：只是单纯传递数据包，不关心具体协议和用法，所以速度快很多，一般有缓存功能，端口一般为1080。SOCKS代理协议又分为SOCKS4和SOCKS5，前者只支持TCP，而后者支持TCP和UDP，还支持各种身份验证机制、服务器端域名解析等。简单来说，SOCKS4能做到的SOCKS5都可以做到，但SOCKS5能做到的SOCKS4不一定能做到。

2、根据匿名程度区分

高度匿名代理：会将数据包原封不动地转发，在服务端看来就好像真的是一个普通客户端在访问，而记录的IP是代理服务器的IP。
普通匿名代理：会在数据包上做一些改动，服务端上有可能发现这是个代理服务器，也有一定几率追查到客户端的真实IP。代理服务器通常会加入的HTTP头有HTTPVIA和HTPXFORSMARDED FOR。
透明代理：不但改动了数据包，还会告诉服务器客户端的真实IP。这种代理除了能用缓存技术提高浏览速度，能用内容过滤提高安全性之外，并无其他显著作用，最常见的例子是内网中的硬件防火墙。
间课代理：指组织或个人创建的用于记录用户传输的数据，然后进行研究、监控等目的的代理服务器。

查看全文

相关阅读:
第一册：lesson thirty five。
第一册：lesson thirty three。
第一册：lesson thirty one。
C#比较两个对象是否为同一个对象。
第一册：lesson twentynine..
第一册：lesson twenty seven。
C#函数返回值。
说明
 推荐一些python Beautiful Soup学习网址
 祝各位节日快乐！20151111

原文地址：https://www.cnblogs.com/cathycheng/p/11398687.html