zoukankan      html  css  js  c++  java
  • 爬虫介绍

    1 爬虫原理与数据抓取

    网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

    数据来源

    1. 企业产生的用户数据:百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数
    2. 数据平台购买数据:数据堂、国云数据市场、贵阳大数据交易所
    3. 政府/机构公开的数据:中华人民共和国国家统计局数据、世界银行公开数据、联合国数据、纳斯达克。
    4. 数据管理咨询公司:麦肯锡、埃森哲、艾瑞咨询
    5. 爬取网络数据:如果需要的数据市场上没有,或者不愿意购买,那么可以选择招/做一名爬虫工程师,自己动手丰衣足食。

    学习内容

    1. Python基础语法学习(基础知识)
    2. HTML页面的内容抓取(数据抓取)
    3. HTML页面的数据提取(数据清洗)
    4. Scrapy框架以及scrapy-redis分布式策略(第三方框架)
    5. 爬虫(Spider)、反爬虫(Anti-Spider)、反反爬虫(Anti-Anti-Spider)之间的斗争....

    1.1 通用爬虫和聚焦爬虫

    根据使用场景,网络爬虫可分为通用爬虫聚焦爬虫两种.

    通用爬虫
    通用网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。

    通用搜索引擎(Search Engine)工作原理
    通用网络爬虫 从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎的效果。

    第一步:抓取网页
    搜索引擎网络爬虫的基本工作流程如下:

    1. 首先选取一部分的种子URL,将这些URL放入待抓取URL队列;
    2. 取出待抓取URL,解析DNS得到主机的IP,并将URL对应的网页下载下来,存储进已下载网页库中,并且将这些URL放进已抓取URL队列。
    3. 分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环....
      image_1cc8cha9fel5n8qbae1p9011l49.png-24.8kB

    第二步:数据存储
    搜索引擎通过爬虫爬取到的网页,将数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。
    搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到访问权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。

    第三步:预处理
    搜索引擎将爬虫抓取回来的页面,进行各种步骤的预处理。

    • 提取文字
    • 中文分词
    • 消除噪音(比如版权声明文字、导航条、广告等……)
    • 索引处理
    • 链接关系计算
    • 特殊文件处理
    • ....

    除了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们在搜索结果中也经常会看到这些文件类型。
    但搜索引擎还不能处理图片、视频、Flash 这类非文字内容,也不能执行脚本和程序。

    第四步:提供检索服务,网站排名
    搜索引擎在对信息进行组织和处理后,为用户提供关键字检索服务,将用户检索相关的信息展示给用户。
    同时会根据页面的PageRank值(链接的访问量排名)来进行网站排名,这样Rank值高的网站在搜索结果中会排名较前,当然也可以直接使用 Money 购买搜索引擎网站排名,简单粗暴。
    image_1cc8d10p01jqa1iqk1lcc1246122jm.png-87kB

    但是,这些通用性搜索引擎也存在着一定的局限性:
    1 通用搜索引擎所返回的结果都是网页,而大多情况下,网页里90%的内容对用户来说都是无用的。
    2. 不同领域、不同背景的用户往往具有不同的检索目的和需求,搜索引擎无法提供针对具体某个用户的搜索结果。
    3. 万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频、视频多媒体等不同数据大量出现,通用搜索引擎对这些文件无能为力,不能很好地发现和获取。
    4. 通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询,无法准确理解用户的具体需求。

    聚焦爬虫
    聚焦爬虫,是"面向特定主题需求"的一种网络爬虫程序,它与通用搜索引擎爬虫的区别在于: 聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。

    而我们今后要学习的,就是聚焦爬虫。

    1.2 HTTP和HTTPS的请求与响应

    HTTP和HTTPS

    HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。

    HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HTTP下加入SSL层。

    SSL(Secure Sockets Layer 安全套接层)主要用于Web的安全传输协议,在传输层对网络连接进行加密,保障在Internet上数据传输的安全。

    HTTP的端口号为80,
    HTTPS的端口号为443

    HTTP工作原理
    网络爬虫抓取过程可以理解为模拟浏览器操作的过程。

    浏览器的主要功能是向服务器发出请求,在浏览器窗口中展示您选择的网络资源,HTTP是一套计算机通过网络进行通信的规则。

    HTTP的请求与响应
    HTTP通信由两部分组成: 客户端请求消息 与 服务器响应消息

    浏览器发送HTTP请求的过程

    1. 当用户在浏览器的地址栏中输入一个URL并按回车键之后,浏览器会向HTTP服务器发送HTTP请求。HTTP请求主要分为“Get”和“Post”两种方法。

    2. 当我们在浏览器输入URL http://www.baidu.com 的时候,浏览器发送一个Request请求去获取 http://www.baidu.com 的html文件,服务器把Response文件对象发送回给浏览器。

    3. 浏览器分析Response中的 HTML,发现其中引用了很多其他文件,比如Images文件,CSS文件,JS文件。 浏览器会自动再次发送Request去获取图片,CSS文件,或者JS文件。

    4. 当所有的文件都下载成功后,网页会根据HTML语法结构,完整的显示出来了。

    URL(Uniform / Universal Resource Locator的缩写):统一资源定位符,是用于完整地描述Internet上网页和其他资源的地址的一种标识方法。

    基本格式:scheme://host[:port#]/path/…/[?query-string][#anchor]

    scheme:协议(例如:http, https, ftp)
    host:服务器的IP地址或者域名
    port#:服务器的端口(如果是走协议默认端口,缺省端口80)
    path:访问资源的路径
    query-string:参数,发送给http服务器的数据
    anchor:锚(跳转到网页的指定锚点位置)

    例如:

    ftp://192.168.0.116:8080/index
    http://www.baidu.com
    http://item.jd.com/11936238.html#product-detail

    客户端HTTP请求
    URL只是标识资源的位置,而HTTP是用来提交和获取资源。客户端发送一个HTTP请求到服务器的请求消息,包括以下格式:

    请求行、请求头部、空行、请求数据

    四个部分组成,下图给出了请求报文的一般格式。
    image_1ce02q22du4dmlb1m541r985o9.png-15.1kB

    一个典型的HTTP请求示例

    GET https://www.baidu.com/ HTTP/1.1
    Host: www.baidu.com
    Connection: keep-alive
    Upgrade-Insecure-Requests: 1
    User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36
    Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
    Referer: http://www.baidu.com/
    Accept-Encoding: gzip, deflate, sdch, br
    Accept-Language: zh-CN,zh;q=0.8,en;q=0.6
    Cookie: BAIDUID=04E4001F34EA74AD4601512DD3C41A7B:FG=1; BIDUPSID=04E4001F34EA74AD4601512DD3C41A7B; PSTM=1470329258; MCITY=-343%3A340%3A; BDUSS=nF0MVFiMTVLcUh-Q2MxQ0M3STZGQUZ4N2hBa1FFRkIzUDI3QlBCZjg5cFdOd1pZQVFBQUFBJCQAAAAAAAAAAAEAAADpLvgG0KGyvLrcyfrG-AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAFaq3ldWqt5XN; H_PS_PSSID=1447_18240_21105_21386_21454_21409_21554; BD_UPN=12314753; sug=3; sugstore=0; ORIGIN=0; bdime=0; H_PS_645EC=7e2ad3QHl181NSPbFbd7PRUCE1LlufzxrcFmwYin0E6b%2BW8bbTMKHZbDP0g; BDSVRTM=0
    

    请求方法
    GET https://www.baidu.com/ HTTP/1.1

    根据HTTP标准,HTTP请求可以使用多种请求方法。

    HTTP 0.9:只有基本的文本 GET 功能。

    HTTP 1.0:完善的请求/响应模型,并将协议补充完整,定义了三种请求方法: GET, POST 和 HEAD方法。

    HTTP 1.1:在 1.0 基础上进行更新,新增了五种请求方法:OPTIONS, PUT, DELETE, TRACE 和 CONNECT 方法。

    HTTP 2.0(未普及):请求/响应首部的定义基本没有改变,只是所有首部键必须全部小写,而且请求行要独立为 :method、:scheme、:host、:path这些键值对。

    序号 方法 描述
    1 GET 请求指定的页面信息,并返回实体主体。
    2 HEAD 类似于get请求,只不过返回的响应中没有具体的内容,用于获取报头
    3 POST 向指定资源提交数据进行处理请求(例如提交表单或者上传文件),数据被包含在请求体中。POST请求可能会导致新的资源的建立和/或已有资源的修改。
    4 PUT 从客户端向服务器传送的数据取代指定的文档的内容。
    5 DELETE 请求服务器删除指定的页面。
    6 CONNECT HTTP/1.1协议中预留给能够将连接改为管道方式的代理服务器。
    7 OPTIONS 允许客户端查看服务器的性能。
    8 TRACE 回显服务器收到的请求,主要用于测试或诊断。

    HTTP请求主要分为Get和Post两种方法

    • GET是从服务器上获取数据,POST是向服务器传送数据

    • GET请求参数显示,都显示在浏览器网址上,HTTP服务器根据该请求所包含URL中的参数来产生响应内容,即“Get”请求的参数是URL的一部分。 例如: http://www.baidu.com/s?wd=Chinese

    • POST请求参数在请求体当中,消息长度没有限制而且以隐式的方式进行发送,通常用来向HTTP服务器提交量比较大的数据(比如请求中包含许多参数或者文件上传操作等),请求的参数包含在“Content-Type”消息头里,指明该消息体的媒体类型和编码,

    注意:避免使用Get方式提交表单,因为有可能会导致安全问题。 比如说在登陆表单中用Get方式,用户输入的用户名和密码将在地址栏中暴露无遗。

    常用的请求报头

    1. Host (主机和端口号)
    Host:对应网址URL中的Web名称和端口号,用于指定被请求资源的Internet主机和端口号,通常属于URL的一部分。

    2. Connection (链接类型)
    Connection:表示客户端与服务连接类型

    • Client 发起一个包含 Connection:keep-alive 的请求,HTTP/1.1使用 keep-alive 为默认值。

    • Server收到请求后:

      • 如果 Server 支持 keep-alive,回复一个包含 Connection:keep-alive 的响应,不关闭连接;
      • 如果 Server 不支持 keep-alive,回复一个包含 Connection:close 的响应,关闭连接。
    • 如果client收到包含 Connection:keep-alive 的响应,向同一个连接发送下一个请求,直到一方主动关闭连接。
      keep-alive在很多情况下能够重用连接,减少资源消耗,缩短响应时间,比如当浏览器需要多个文件时(比如一个HTML文件和相关的图形文件),不需要每次都去请求建立连接。]

    3. Upgrade-Insecure-Requests (升级为HTTPS请求)

    Upgrade-Insecure-Requests:升级不安全的请求,意思是会在加载 http 资源时自动替换成 https 请求,让浏览器不再显示https页面中的http请求警报。
    HTTPS 是以安全为目标的 HTTP 通道,所以在 HTTPS 承载的页面上不允许出现 HTTP 请求,一旦出现就是提示或报错。

    4. User-Agent (浏览器名称)

    User-Agent:是客户浏览器的名称,以后会详细讲。

    5. Accept (传输文件类型)

    Accept:指浏览器或其他客户端可以接受的MIME(Multipurpose Internet Mail Extensions(多用途互联网邮件扩展))文件类型,服务器可以根据它判断并返回适当的文件格式。

    举例:

    Accept: /:表示什么都可以接收。

    Accept:image/gif:表明客户端希望接受GIF图像格式的资源;

    Accept:text/html:表明客户端希望接受html文本。

    Accept: text/html, application/xhtml+xml;q=0.9, image/*;q=0.8:表示浏览器支持的 MIME 类型分别是 html文本、xhtml和xml文档、所有的图像格式资源。

    q是权重系数,范围 0 =< q <= 1,q 值越大,请求越倾向于获得其“;”之前的类型表示的内容。若没有指定q值,则默认为1,按从左到右排序顺序;若被赋值为0,则用于表示浏览器不接受此内容类型。

    Text:用于标准化地表示的文本信息,文本消息可以是多种字符集和或者多种格式的;Application:用于传输应用程序数据或者二进制数据。详细请点击

    6. Referer (页面跳转处)

    Referer:表明产生请求的网页来自于哪个URL,用户是从该 Referer页面访问到当前请求的页面。这个属性可以用来跟踪Web请求来自哪个页面,是从什么网站来的等。

    有时候遇到下载某网站图片,需要对应的referer,否则无法下载图片,那是因为人家做了防盗链,原理就是根据referer去判断是否是本网站的地址,如果不是,则拒绝,如果是,就可以下载;

    7. Accept-Encoding(文件编解码格式)

    Accept-Encoding:指出浏览器可以接受的编码方式。编码方式不同于文件格式,它是为了压缩文件并加速文件传递速度。浏览器在接收到Web响应之后先解码,然后再检查文件格式,许多情形下这可以减少大量的下载时间。

    举例:Accept-Encoding:gzip;q=1.0, identity; q=0.5, *;q=0
    如果有多个Encoding同时匹配, 按照q值顺序排列,本例中按顺序支持 gzip, identity压缩编码,支持gzip的浏览器会返回经过gzip编码的HTML页面。 如果请求消息中没有设置这个域服务器假定客户端对各种内容编码都可以接受。

    8. Accept-Language(语言种类)

    Accept-Langeuage:指出浏览器可以接受的语言种类,如en或en-us指英语,zh或者zh-cn指中文,当服务器能够提供一种以上的语言版本时要用到。

    9. Accept-Charset(字符编码)

    Accept-Charset:指出浏览器可以接受的字符编码。

    举例:Accept-Charset:iso-8859-1,gb2312,utf-8
    ISO8859-1:通常叫做Latin-1。Latin-1包括了书写所有西方欧洲语言不可缺少的附加字符,英文浏览器的默认值是ISO-8859-1.
    gb2312:标准简体中文字符集;
    utf-8:UNICODE 的一种变长字符编码,可以解决多种语言文本显示问题,从而实现应用国际化和本地化。
    如果在请求消息中没有设置这个域,缺省是任何字符集都可以接受。

    10. Cookie (Cookie)

    Cookie:浏览器用这个属性向服务器发送Cookie。Cookie是在浏览器中寄存的小型数据体,它可以记载和服务器相关的用户信息,也可以用来实现会话功能,以后会详细讲。

    11. Content-Type (POST数据类型)

    Content-Type:POST请求里用来表示的内容类型。

    举例:Content-Type = Text/XML; charset=gb2312:
    指明该请求的消息体中包含的是纯文本的XML类型的数据,字符编码采用“gb2312”。

    服务端HTTP响应
    HTTP响应也由四个部分组成,分别是: 状态行、消息报头、空行、响应正文
    image_1ce047cbb1pkr1vf18kd1b3eupi9.png-110.7kB

    HTTP/1.1 200 OK
    Server: Tengine
    Connection: keep-alive
    Date: Wed, 30 Nov 2016 07:58:21 GMT
    Cache-Control: no-cache
    Content-Type: text/html;charset=UTF-8
    Keep-Alive: timeout=20
    Vary: Accept-Encoding
    Pragma: no-cache
    X-NWS-LOG-UUID: bd27210a-24e5-4740-8f6c-25dbafa9c395
    Content-Length: 180945
    
    <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" ....
    

    响应状态码
    响应状态代码有三位数字组成,第一个数字定义了响应的类别,且有五种可能取值。

    常见状态码:

    100~199:表示服务器成功接收部分请求,要求客户端继续提交其余请求才能完成整个处理过程。

    200~299:表示服务器成功接收请求并已完成整个处理过程。常用200(OK 请求成功)。

    300~399:为完成请求,客户需进一步细化请求。例如:请求的资源已经移动一个新地址、常用302(所请求的页面已经临时转移至新的url)、307和304(使用缓存资源)。

    400~499:客户端的请求有错误,常用404(服务器无法找到被请求的页面)、403(服务器拒绝访问,权限不够)。

    500~599:服务器端出现错误,常用500(请求未完成。服务器遇到不可预知的情况)。

    Cookie 和 Session:

    服务器和客户端的交互仅限于请求/响应过程,结束之后便断开,在下一次请求时,服务器会认为新的客户端。

    为了维护他们之间的链接,让服务器知道这是前一个用户发送的请求,必须在一个地方保存客户端的信息。

    Cookie:通过在 客户端 记录的信息确定用户的身份。

    Session:通过在 服务器端 记录的信息确定用户的身份。

    1.3 urllib2库的基本使用

    所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 在Python中有很多库可以用来抓取网页,我们先学习urllib2。

    urllib2 是 Python2.7 自带的模块(不需要下载,导入即可使用)
    urllib2 官方文档:https://docs.python.org/2/library/urllib2.html
    urllib2 源码:https://hg.python.org/cpython/file/2.7/Lib/urllib2.py

    urllib2 在 python3.x 中被改为urllib.request

    urlopen

    我们先来段代码:

    # urllib2_urlopen.py
    
    # 导入urllib2 库
    import urllib2
    
    # 向指定的url发送请求,并返回服务器响应的类文件对象
    response = urllib2.urlopen("http://www.baidu.com")
    
    # 类文件对象支持 文件对象的操作方法,如read()方法读取文件全部内容,返回字符串
    html = response.read()
    
    # 打印字符串
    print html
    

    执行写的python代码,将打印结果

    实际上,如果我们在浏览器上打开百度主页, 右键选择“查看源代码”,你会发现,跟我们刚才打印出来的是一模一样。也就是说,上面的4行代码就已经帮我们把百度的首页的全部代码爬了下来。

    一个基本的url请求对应的python代码真的非常简单。

    Request
    在我们第一个例子里,urlopen()的参数就是一个url地址;

    但是如果需要执行更复杂的操作,比如增加HTTP报头,必须创建一个 Request 实例来作为urlopen()的参数;而需要访问的url地址则作为 Request 实例的参数。

    我们编辑urllib2_request.py

    # urllib2_request.py
    
    import urllib2
    
    # url 作为Request()方法的参数,构造并返回一个Request对象
    request = urllib2.Request("http://www.baidu.com")
    
    # Request对象作为urlopen()方法的参数,发送给服务器并接收响应
    response = urllib2.urlopen(request)
    
    html = response.read()
    
    print html
    

    运行结果是完全一样的:
    新建Request实例,除了必须要有 url 参数之外,还可以设置另外两个参数:

    data(默认空):是伴随 url 提交的数据(比如要post的数据),同时 HTTP 请求将从 "GET"方式 改为 "POST"方式。

    headers(默认空):是一个字典,包含了需要发送的HTTP报头的键值对。

    这两个参数下面会说到。

    User-Agent

    但是这样直接用urllib2给一个网站发送请求的话,确实略有些唐突了,就好比,人家每家都有门,你以一个路人的身份直接闯进去显然不是很礼貌。而且有一些站点不喜欢被程序(非人为访问)访问,有可能会拒绝你的访问请求。

    但是如果我们用一个合法的身份去请求别人网站,显然人家就是欢迎的,所以我们就应该给我们的这个代码加上一个身份,就是所谓的User-Agent头。

    浏览器 就是互联网世界上公认被允许的身份,如果我们希望我们的爬虫程序更像一个真实用户,那我们第一步,就是需要伪装成一个被公认的浏览器。用不同的浏览器在发送请求的时候,会有不同的User-Agent头。 urllib2默认的User-Agent头为:Python-urllib/x.y(x和y是Python主版本和次版本号,例如 Python-urllib/2.7)

    #urllib2_useragent.py
    
    import urllib2
    
    url = "http://www.itcast.cn"
    
    #IE 9.0 的 User-Agent,包含在 ua_header里
    ua_header = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"} 
    
    #  url 连同 headers,一起构造Request请求,这个请求将附带 IE9.0 浏览器的User-Agent
    request = urllib2.Request(url, headers = ua_header)
    
    # 向服务器发送这个请求
    response = urllib2.urlopen(request)
    
    html = response.read()
    print html
    

    添加更多的Header信息

    在 HTTP Request 中加入特定的 Header,来构造一个完整的HTTP请求消息。

    可以通过调用Request.add_header() 添加/修改一个特定的header 也可以通过调用Request.get_header()来查看已有的header。

    • 添加一个特定的header
    # urllib2_headers.py
    
    import urllib2
    
    url = "http://www.itcast.cn"
    
    #IE 9.0 的 User-Agent
    header = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"} 
    request = urllib2.Request(url, headers = header)
    
    #也可以通过调用Request.add_header() 添加/修改一个特定的header
    request.add_header("Connection", "keep-alive")
    
    # 也可以通过调用Request.get_header()来查看header信息
    # request.get_header(header_name="Connection")
    
    response = urllib2.urlopen(req)
    
    print response.code     #可以查看响应状态码
    html = response.read()
    
    print html
    
    • 随机添加/修改User-Agent
    # urllib2_add_headers.py
    
    import urllib2
    import random
    
    url = "http://www.itcast.cn"
    
    ua_list = [
        "Mozilla/5.0 (Windows NT 6.1; ) Apple.... ",
        "Mozilla/5.0 (X11; CrOS i686 2268.111.0)... ",
        "Mozilla/5.0 (Macintosh; U; PPC Mac OS X.... ",
        "Mozilla/5.0 (Macintosh; Intel Mac OS... "
    ]
    
    user_agent = random.choice(ua_list)
    
    request = urllib2.Request(url)
    
    #也可以通过调用Request.add_header() 添加/修改一个特定的header
    request.add_header("User-Agent", user_agent)
    
    # 第一个字母大写,后面的全部小写
    request.get_header("User-agent")
    
    response = urllib2.urlopen(req)
    
    html = response.read()
    print html
    

    1.4 urllib2:GET请求和POST请求

    urllib2默认只支持HTTP/HTTPS的GET和POST方法

    urllib.urlencode()

    urllib 和 urllib2 都是接受URL请求的相关模块,但是提供了不同的功能。两个最显著的不同如下:

    • urllib 仅可以接受URL,不能创建 设置了headers 的Request 类实例;

    • 但是 urllib 提供 urlencode 方法用来GET查询字符串的产生,而 urllib2 则没有。(这是 urllib 和 urllib2 经常一起使用的主要原因)

    • 编码工作使用urllib的urlencode()函数,帮我们将key:value这样的键值对转换成"key=value"这样的字符串,解码工作可以使用urllib的unquote()函数。(注意,不是urllib2.urlencode() )

    # IPython2 中的测试结果
    In [1]: import urllib
    
    In [2]: word = {"wd" : "传智播客"}
    
    # 通过urllib.urlencode()方法,将字典键值对按URL编码转换,从而能被web服务器接受。
    In [3]: urllib.urlencode(word)  
    Out[3]: "wd=%E4%BC%A0%E6%99%BA%E6%92%AD%E5%AE%A2"
    
    # 通过urllib.unquote()方法,把 URL编码字符串,转换回原先字符串。
    In [4]: print urllib.unquote("wd=%E4%BC%A0%E6%99%BA%E6%92%AD%E5%AE%A2")
    wd=传智播客
    

    一般HTTP请求提交数据,需要编码成 URL编码格式,然后做为url的一部分,或者作为参数传到Request对象中。

    Get方式

    GET请求一般用于我们向服务器获取数据,比如说,我们用百度搜索传智播客:https://www.baidu.com/s?wd=传智播客

    浏览器的url会跳转成:

    https://www.baidu.com/s?wd=%E4%BC%A0%E6%99%BA%E6%92%AD%E5%AE%A2

    在其中我们可以看到在请求部分里,http://www.baidu.com/s? 之后出现一个长长的字符串,其中就包含我们要查询的关键词传智播客,于是我们可以尝试用默认的Get方式来发送请求。

    # urllib2_get.py
    
    import urllib      #负责url编码处理
    import urllib2
    
    url = "http://www.baidu.com/s"
    word = {"wd":"传智播客"}
    word = urllib.urlencode(word) #转换成url编码格式(字符串)
    newurl = url + "?" + word    # url首个分隔符就是 ?
    
    headers={ "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"}
    
    request = urllib2.Request(newurl, headers=headers)
    
    response = urllib2.urlopen(request)
    
    print response.read()
    

    POST方式

    上面我们说了Request请求对象的里有data参数,它就是用在POST里的,我们要传送的数据就是这个参数data,data是一个字典,里面要匹配键值对。

    有道词典翻译网站:
    输入测试数据,再通过使用Fiddler观察,其中有一条是POST请求,而向服务器发送的请求数据并不是在url里,那么我们可以试着模拟这个POST请求。

    于是,我们可以尝试用POST方式发送请求。

    import urllib
    import urllib2
    
    # POST请求的目标URL
    url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=null"
    
    headers={"User-Agent": "Mozilla...."}
    
    formdata = {
        "type":"AUTO",
        "i":"i love python",
        "doctype":"json",
        "xmlVersion":"1.8",
        "keyfrom":"fanyi.web",
        "ue":"UTF-8",
        "action":"FY_BY_ENTER",
        "typoResult":"true"
    }
    
    data = urllib.urlencode(formdata)
    
    request = urllib2.Request(url, data = data, headers = headers)
    response = urllib2.urlopen(request)
    print response.read()
    

    发送POST请求时,需要特别注意headers的一些属性:

    Content-Length: 144:是指发送的表单数据长度为144,也就是字符个数是144个。

    X-Requested-With: XMLHttpRequest :表示Ajax异步请求。

    Content-Type: application/x-www-form-urlencoded : 表示浏览器提交 Web 表单时使用,表单数据会按照 name1=value1&name2=value2 键值对形式进行编码。

    获取AJAX加载的内容

    有些网页内容使用AJAX加载,只要记得,AJAX一般返回的是JSON,直接对AJAX地址进行post或get,就返回JSON数据了。

    import urllib
    import urllib2
    
    # demo1
    
    url = "https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action"
    
    headers={"User-Agent": "Mozilla...."}
    
    # 变动的是这两个参数,从start开始往后显示limit个
    formdata = {
        'start':'0',
        'limit':'10'
    }
    data = urllib.urlencode(formdata)
    
    request = urllib2.Request(url, data=data, headers=headers)
    response = urllib2.urlopen(request)
    
    print response.read()
    
    
    # demo2
    
    url = "https://movie.douban.com/j/chart/top_list?"
    headers={"User-Agent": "Mozilla...."}
    
    # 处理所有参数
    formdata = {
        'type':'11',
        'interval_id':'100:90',
        'action':'',
        'start':'0',
        'limit':'10'
    }
    data = urllib.urlencode(formdata)
    
    request = urllib2.Request(url, data = data, headers = headers)
    response = urllib2.urlopen(request)
    
    print response.read()
    

    1.5 urllib2:Handler处理器和自定义Opener

    • opener是 urllib2.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的)。

    • 但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能:

    • 使用相关的 Handler处理器 来创建特定功能的处理器对象;

    • 然后通过 urllib2.build_opener()方法使用这些处理器对象,创建自定义opener对象;

    • 使用自定义的opener对象,调用open()方法发送请求。

    • 如果程序里所有的请求都使用自定义的opener,可以使用urllib2.install_opener() 将自定义的 opener 对象 定义为 全局opener,表示如果之后凡是调用urlopen,都将使用这个opener(根据自己的需求来选择)

    简单的自定义opener()

    import urllib2
    
    # 构建一个HTTPHandler 处理器对象,支持处理HTTP请求
    http_handler = urllib2.HTTPHandler()
    
    # 构建一个HTTPHandler 处理器对象,支持处理HTTPS请求
    # http_handler = urllib2.HTTPSHandler()
    
    # 调用urllib2.build_opener()方法,创建支持处理HTTP请求的opener对象
    opener = urllib2.build_opener(http_handler)
    
    # 构建 Request请求
    request = urllib2.Request("http://www.baidu.com/")
    
    # 调用自定义opener对象的open()方法,发送request请求
    response = opener.open(request)
    
    # 获取服务器响应内容
    print response.read()
    

    这种方式发送请求得到的结果,和使用urllib2.urlopen()发送HTTP/HTTPS请求得到的结果是一样的。

    如果在 HTTPHandler()增加 debuglevel=1参数,还会将 Debug Log 打开,这样程序在执行的时候,会把收包和发包的报头在屏幕上自动打印出来,方便调试,有时可以省去抓包的工作。

    # 仅需要修改的代码部分:
    
    # 构建一个HTTPHandler 处理器对象,支持处理HTTP请求,同时开启Debug Log,debuglevel 值默认 0
    http_handler = urllib2.HTTPHandler(debuglevel=1)
    
    # 构建一个HTTPHSandler 处理器对象,支持处理HTTPS请求,同时开启Debug Log,debuglevel 值默认 0
    https_handler = urllib2.HTTPSHandler(debuglevel=1)
    

    ProxyHandler处理器(代理设置)

    使用代理IP,这是爬虫/反爬虫的第二大招,通常也是最好用的。

    很多网站会检测某一段时间某个IP的访问次数(通过流量统计,系统日志等),如果访问次数多的不像正常人,它会禁止这个IP的访问。

    所以我们可以设置一些代理服务器,每隔一段时间换一个代理,就算IP被禁止,依然可以换个IP继续爬取。

    urllib2中通过ProxyHandler来设置使用代理服务器,下面代码说明如何使用自定义opener来使用代理:

    #urllib2_proxy1.py
    
    import urllib2
    
    # 构建了两个代理Handler,一个有代理IP,一个没有代理IP
    httpproxy_handler = urllib2.ProxyHandler({"http" : "124.88.67.81:80"})
    nullproxy_handler = urllib2.ProxyHandler({})
    
    proxySwitch = True #定义一个代理开关
    
    # 通过 urllib2.build_opener()方法使用这些代理Handler对象,创建自定义opener对象
    # 根据代理开关是否打开,使用不同的代理模式
    if proxySwitch:  
        opener = urllib2.build_opener(httpproxy_handler)
    else:
        opener = urllib2.build_opener(nullproxy_handler)
    
    request = urllib2.Request("http://www.baidu.com/")
    
    # 1. 如果这么写,只有使用opener.open()方法发送请求才使用自定义的代理,而urlopen()则不使用自定义代理。
    response = opener.open(request)
    
    # 2. 如果这么写,就是将opener应用到全局,之后所有的,不管是opener.open()还是urlopen() 发送请求,都将使用自定义代理。
    # urllib2.install_opener(opener)
    # response = urlopen(request)
    
    print response.read()
    

    免费的开放代理获取基本没有成本,我们可以在一些代理网站上收集这些免费代理,测试后如果可以用,就把它收集起来用在爬虫上面。

    免费短期代理网站举例:

    • 西刺免费代理IP
    • 快代理免费代理
    • Proxy360代理
    • 全网代理IP

    如果代理IP足够多,就可以像随机获取User-Agent一样,随机选择一个代理去访问网站。

    import urllib2
    import random
    
    proxy_list = [
        {"http" : "124.88.67.81:80"},
        {"http" : "124.88.67.81:80"},
        {"http" : "124.88.67.81:80"},
        {"http" : "124.88.67.81:80"},
        {"http" : "124.88.67.81:80"}
    ]
    
    # 随机选择一个代理
    proxy = random.choice(proxy_list)
    # 使用选择的代理构建代理处理器对象
    httpproxy_handler = urllib2.ProxyHandler(proxy)
    
    opener = urllib2.build_opener(httpproxy_handler)
    
    request = urllib2.Request("http://www.baidu.com/")
    response = opener.open(request)
    print response.read()
    

    HTTPPasswordMgrWithDefaultRealm()
    HTTPPasswordMgrWithDefaultRealm()类将创建一个密码管理对象,用来保存 HTTP 请求相关的用户名和密码,主要应用两个场景:

    • 验证代理授权的用户名和密码 (ProxyBasicAuthHandler())
    • 验证Web客户端的的用户名和密码 (HTTPBasicAuthHandler())

    ProxyBasicAuthHandler(代理授权验证)
    如果我们使用之前的代码来使用私密代理,会报 HTTP 407 错误,表示代理没有通过身份验证:
    urllib2.HTTPError: HTTP Error 407: Proxy Authentication Required

    所以我们需要改写代码,通过:

    • HTTPPasswordMgrWithDefaultRealm():来保存私密代理的用户密码
    • ProxyBasicAuthHandler():来处理代理的身份验证。
  • 相关阅读:
    MKMapVIew学习系列2 在地图上绘制出你运行的轨迹
    WPF SDK研究 Intro(6) WordGame1
    WPF SDK研究 Intro(3) QuickStart3
    WPF SDK研究 Layout(1) Grid
    WPF SDK研究 目录 前言
    WPF SDK研究 Intro(7) WordGame2
    WPF SDK研究 Layout(2) GridComplex
    对vs2005创建的WPF模板分析
    WPF SDK研究 Intro(4) QuickStart4
    《Programming WPF》翻译 第6章 资源
  • 原文地址:https://www.cnblogs.com/kolane/p/11538065.html
Copyright © 2011-2022 走看看