zoukankan      html  css  js  c++  java
  • PYTHON 爬虫笔记二:Urllib库基本使用

    知识点一:urllib的详解及基本使用方法

      一、基本介绍

          urllib是python的一个获取url(Uniform Resource Locators,统一资源定址器)了,我们可以利用它来抓取远程的数据进行保存。

      二、什么是Urllib

          Python内置的Http请求库,包含四个模块:

            urllib.request 请求模块    (模拟浏览器,可以用来发送request和获取request的结果)

            urllib.error 异常处理模块  (包含了urllib.request产生的异常)

            urllib.parse url解析模块    工具模块(用来解析和处理UR),如:拆分、合并

            urllib.robotparser robots.txt    解析模块(用来解析页面的robots.txt文件) 

      三、urllib模块的基本使用

        1.urlopen方法

          urllib.request 模块提供了最基本的构造 HTTP 请求的方法,利用它可以模拟浏览器的一个请求发起过程,同时它还带有处理 authenticaton (授权验证), redirections (重定向), cookies (浏览器Cookies)以及其它内容。

    基本方法:
      urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
    
    -         url:  需要打开的网址
    - data:Post提交的数据 - timeout:设置网站的访问超时时间   直接用urllib.request模块的urlopen()获取页面,page的数据格式为bytes类型,需要decode()解码,转换成str类型。

        urlopen返回对象提供方法:

        -         read() , readline() ,readlines() , fileno() , close() :对HTTPResponse类型数据进行操作

        -         info():返回HTTPMessage对象,表示远程服务器返回的头信息

        -         getcode():返回Http状态码。如果是http请求,200请求成功完成;404网址未找到

        -         geturl():返回请求的url

    import urllib.request
    
    request_url = 'http://www.baidu.com'           # 需要请求的URL地址
    response = urllib.request.urlopen(request_url) # 发起请求
    print(response.read().decode('utf-8'))         # 打印响应的文本,并进行UTF-8解码

        参数管理

          data参数

          data 参数是可选的,如果要添加 data ,它要是字节流编码格式的内容,即 bytes 类型,通过 bytes() 函数可以进行转化,另外如果你传递了这个 data 参数,它的请求方式就不再是 GET 方式请求,而是 POST 。

    import urllib.parse  
    import urllib.request  
    data
    = bytes(urllib.parse.urlencode({'word': 'hello'}), encoding= 'utf8') response = urllib.request.urlopen('http://httpbin.org/post', data=data) print(response.read())

          在这里我们传递了一个参数 word ,值是 hello 。它需要被转码成 bytes (字节流)类型。其中转字节流采用了 bytes() 方法,第一个参数需要是 str (字符串)类型,

            需要用 urllib.parse.urlencode() 方法来将参数字典转化为字符串。第二个参数指定编码格式,在这里指定为 utf8 。

          提交的网址是 httpbin.org ,它可以提供 HTTP 请求测试。 http://httpbin.org/post 这个地址可以用来测试 POST 请求,它可以输出请求和响应信息,其中就包含我们传递的 data 参数。

     1 b'{
     2 "args":{},
     3 "data":"",
     4 "files":{},
     5 "form":{"word":"hello"},
     6 "headers":{"Accept-Encoding":"identity",
     7 "Connection":"close",
     8 "Content-Length":"10",
     9 "Content-Type":"application/x-www-form-urlencoded",
    10 "Host":"httpbin.org",
    11 "User-Agent":"Python-urllib/3.4"
    12 },
    13 "json":null,
    14 "origin":"132.196.111.200",
    15 "url":"http://httpbin.org/post"}
    '
    运行结果

         我们传递的参数出现在了 form 中,这表明是模拟了表单提交的方式,以 POST 方式传输数据。

          timeout参数

            timeout 参数可以设置超时时间,单位为秒,意思就是如果请求超出了设置的这个时间还没有得到响应,就会抛出异常,如果不指定,就会使用全局默认时间。它支持 HTTP 、 HTTPS 、 FTP 请求。

    import urllib.request  
    response
    = urllib.request.urlopen("http://httpbin.org/get",timeout=1) print(response.read())
    1 During handling of the above exception, another exception occurr
    2 ed:
    3 Traceback (most recent call last): File "/var/py/python/urllibte
    4 st.py", line 4, in <module> response = urllib.request.urlopen('h
    5 ttp://httpbin.org/get', timeout=1)
    6 ...
    7 urllib.error.URLError: <urlopen error timed out>
    运行结果

          在这里我们设置了超时时间是1秒,程序1秒过后服务器依然没有响应,于是抛出了 urllib.error.URLError 异常,错误原因是 timed out 。因此我们可以通过设置这个超时时间来控制

            一个网页如果长时间未响应就跳过它的抓取,利用 try,except 语句就可以实现这样的操作。

    import urllib.request
    import  socket
    import urllib.error
    try: response = urllib.request.urlopen('http://httpbin.org/get',timeout=0.1) except urllib.error.URLError as e: if isinstance(e.reason, socket.timeout): print("Time out!")

          在这里我们请求了 http://httpbin.org/get 这个测试链接,设置了超时时间是0.1秒,然后捕获了 urllib.error.URLError 这个异常,然后判断异常原因是超时异常,就得出它确实是因为超时而报错,

            打印输出了 TIME OUT ,当然你也可以在这里做其他的处理。

          常理来说,0.1秒内基本不可能得到服务器响应,因此输出了 TIME OUT 的提示。这样,我们可以通过设置 timeout 这个参数来实现超时处理,有时还是很有用的。

        2.request方法的使用

          由上我们知道利用 urlopen() 方法可以实现最基本的请求发起,但这几个简单的参数并不足以构建一个完整的请求,如果请求中需要加入 headers 等信息,我们就可以利用更强大的 Request 类来构建一个请求。

          首先我们用一个实例来感受一下 Request 的用法:

    import urllib.request
    
    request =urllib.request.Request("https://www.baidu.com")
    response = urllib.request.urlopen(request)
    print(response.read().decode("utf-8"))

          可以发现,我们依然是用 urlopen() 方法来发送这个请求,只不过这次 urlopen() 方法的参数不再是一个URL,而是一个 Request ,通过构造这个这个数据结构,一方面我们可以将请求独立成一个对象,

            另一方面可配置参数更加丰富和灵活。
          下面我们看一下 Request 都可以通过怎样的参数来构造,它的构造方法如下。

    class urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)
         ---使用request()来包装请求,再通过urlopen()获取页面。

     

          第一个参数是请求链接,这个是必传参数,其他的都是可选参数。

          data :参数如果要传必须传 bytes (字节流)类型的,如果是一个字典,可以先用 urllib.parse.urlencode() 编码。

          headers: 参数是一个字典,你可以在构造 Request 时通过 headers 参数传递,也可以通过调用 Request 对象的 add_header() 方法来添加请求头。请求头最常用的用法就是通过修改 User-Agent 来伪装浏览器,默认的 User-
          Agent: 是 Python-urllib ,你可以通过修改它来伪装浏览器,比如要伪装火狐浏览器,你可以把它设置为 Mozilla/5.0 (X11; U; Linux i686)Gecko/20071127 Firefox/2.0.0.11

          origin_req_host: 指的是请求方的 host 名称或者 IP 地址。

          unverifiable: 指的是这个请求是否是无法验证的,默认是 False 。意思就是说用户没有足够权限来选择接收这个请求的结果。例如我们请求一个HTML文档中的图片,但是我们没有自动抓取图像的权限,这时 unverifiable 的值就是 True 。

          method: 是一个字符串,它用来指示请求使用的方法,比如 GET , POST , PUT 等等。
        下面我们传入多个参数构建一个 Request 来感受一下:

    from urllib import request,parse
    url
    = "http://httpbin.org/post" headers = { #伪装一个火狐浏览器 "User-Agent":'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)', "host":'httpbin.org' } dict = { "name":"Germey" }
    data
    = bytes(parse.urlencode(dict),encoding="utf8") req = request.Request(url=url,data=data,headers=headers,method="POST") response = request.urlopen(req) print(response.read().decode("utf-8"))

         另一种方式:

    from urllib import request,parse
    
    url = "http://httpbin.org/post"
    dict = {
        "name":"Germey"
    }
    
    data = bytes(parse.urlencode(dict),encoding="utf8")
    req = request.Request(url=url,data=data,method="POST")
    req.add_header('User-Agent','Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)')
    response = request.urlopen(req)
    print(response.read().decode("utf-8"))

        在这里我们通过四个参数构造了一个 Request , url 即请求链接,在 headers 中指定了 User-Agent 和 Host ,传递的参数 data 用了 urlencode() 和 bytes() 方法来转成字节流,另外指定了请求方式为 POST 。

      运行结果:

     1 {
     2 "args":{},
     3 "data":"",
     4 "files":{},
     5 "form":{"name":"Germey"},
     6 "headers":{"Accept-Encoding":"identity",
     7 "Connection":"close",
     8 "Content-Length":"11",
     9 "Content-Type":"application/x-www-form-urlencoded",
    10 "Host":"httpbin.org",
    11 "User-Agent":"Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)"},
    12 "json":null,
    13 "origin":"139.196.111.200"
    14 ,"url":"http://httpbin.org/post"
    15 }
    运行结果测试

        另外 headers 也可以用 add_header() 方法来添加。

    req = request.Request(url=url, data=data, method='POST')
    
    req.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 5.5;Windows NT)')

         如此一来,我们就可以更加方便地构造一个 Request ,实现请求的发送。

        另一实例:

    import urllib.request
    
    
    url ='http://www.lagou.com/zhaopin/Python/?labelWords=label'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                      'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
        'Referer': 'http://www.lagou.com/zhaopin/Python/?labelWords=label',
        'Connection': 'keep-alive',
        "host":'www.lagou.com'
    }
    req
    = urllib.request.Request(url, headers=headers) page = urllib.request.urlopen(req).read() print(page.decode())

        用来包装头部的数据:

        -         User-Agent :这个头部可以携带如下几条信息:浏览器名和版本号、操作系统名和版本号、默认语言

        -         Referer:可以用来防止盗链,有一些网站图片显示来源http://***.com,就是检查Referer来鉴定的

        -         Connection:表示连接状态,记录Session的状态。

        3.响应

          a.响应类型实例:

    import urllib.request
    
    response=urllib.request.urlopen('https://www.python.org')
    print(type(response))

            输出结果为:

    <class 'http.client.HTTPResponse'>

           b.状态码,响应头实例:

    import urllib.request
    
    response = urllib.request.urlopen('http://www.python.org')
    print(response.status)  #正确返回200 
    print(response.getheaders())    #返回请求头
    print((response.getheader('Servers'))

            输出结果:

    200
    [('Server', 'nginx'), ('Content-Type', 'text/html; charset=utf-8'), ('X-Frame-Options', 'SAMEORIGIN'), ('x-xss-protection', '1; mode=block'), ('X-Clacks-Overhead', 'GNU Terry Pratchett'), 
    ('Via', '1.1 varnish'), ('Content-Length', '48730'), ('Accept-Ranges', 'bytes'), ('Date', 'Thu, 31 May 2018 08:49:02 GMT'), ('Via', '1.1 varnish'), ('Age', '2261'), ('Connection', 'close'),
    ('X-Served-By', 'cache-iad2127-IAD, cache-nrt6138-NRT'), ('X-Cache', 'HIT, HIT'), ('X-Cache-Hits', '1, 40'), ('X-Timer', 'S1527756542.308043,VS0,VE0'), ('Vary', 'Cookie'), ('Strict-Transport-Security', 'max-age=63072000; includeSubDomains')]

     

        3.handler(urllib.request高级特性)

         大家有没有发现,在上面的过程中,我们虽然可以构造 Request ,但是一些更高级的操作,比如 Cookies 处理,代理该怎样来设置?
         接下来就需要更强大的工具 Handler 登场了。

          简而言之你可以把它理解为各种处理器,有专门处理登录验证的,有处理 Cookies 的,有处理代理设置的,利用它们我们几乎可以做到任何 HTTP 请求中所有的事情。

        首先介绍下 urllib.request.BaseHandler ,它是所有其他 Handler 的父类,它提供了最基本的 Handler 的方法,例
          如 default_open() 、 protocol_request() 等。
        接下来就有各种 Handler 类继承这个 BaseHandler ,列举如下:

    • HTTPDefaultErrorHandler 用于处理HTTP响应错误,错误都会抛出 HTTPError 类型的异常。
    • HTTPRedirectHandler 用于处理重定向。
    • HTTPCookieProcessor 用于处理 Cookie 。
    • ProxyHandler 用于设置代理,默认代理为空。
    • HTTPPasswordMgr 用于管理密码,它维护了用户名密码的表。
    • HTTPBasicAuthHandler 用于管理认证,如果一个链接打开时需要认证,那么可以用它来解决认证问题。 另外还有其他的 Handler ,可以参考官方文档

      它们怎么来使用,不用着急,下面会有实例为你演示。
      另外一个比较重要的就是 OpenerDirector ,我们可以称之为 Opener ,我们之前用过 urllib.request.urlopen() 这个方法,实际上它就是一个 Opener 。
      那么为什么要引入 Opener 呢?因为我们需要实现更高级的功能,之前我们使用的 Request 、 urlopen() 相当于类库为你封装好了极其常用的请求方法,利用它们两个我们就可以完成基本的请求,但是现在不一样了,

        我们需要实现更高级的功能,所以我们需要深入一层,使用更上层的实例来完成我们的操作。所以,在这里我们就用到了比调用 urlopen() 的对象的更普遍的对象,也就是 Opener 。

      Opener 可以使用 open() 方法,返回的类型和 urlopen() 如出一辙。那么它和 Handler 有什么关系?简而言之,就是利用 Handler 来构建 Opener 。

       实例认证:

    import urllib.request
    auth_handler = urllib.request.HTTPBasicAuthHandler()
    auth_handler.add_password(realm='PDQ Application',
                              uri='https://mahler:8092/site-updates.py',
                              user='klem',
                              passwd='kadidd!ehopper')
    opener = urllib.request.build_opener(auth_handler)
    urllib.request.install_opener(opener)
    urllib.request.urlopen('http://www.example.com/login.html')

        此处代码为实例代码,用于说明 Handler 和 Opener 的使用方法。在这里,首先实例化了一个 HTTPBasicAuthHandler 对象,然后利用 add_password() 添加进去用户名和密码,相当于建立了一个处理认证的处理器。
        接下来利用 urllib.request.build_opener() 方法来利用这个处理器构建一个 Opener ,那么这个 Opener 在发送请求的时候就具备了认证功能了。接下来利用 Opener 的 open() 方法打开链接,就可以完成认证了。

          a.代理

    import urllib.request
    
    proxy_handler =urllib.request.ProxyHandler({
    
        'http':'http://127.0.0.1:4623',
        'https':'https://127.0.0.1:4623'
    
    })
    
    opener =urllib.request.build_opener(proxy_handler)
    response= opener.open('http://www.baidu.com')
    
    print(response.read())

          在这里使用了 ProxyHandler , ProxyHandler 的参数是一个字典,key是协议类型,比如 http 还是 https 等,value是代理链接,可以添加多个代理。
          然后利用 build_opener() 方法利用这个 Handler 构造一个 Opener ,然后发送请求即可。

          b.cooike设置(用来维持登陆状态)

    import http.cookiejar,urllib.request
    
    cookie = http.cookiejar.CookieJar()
    handler=urllib.request.HTTPCookieProcessor(cookie)
    opener = urllib.request.build_opener(handler)
    response = opener.open('http://www.baidu.com')
    
    for item in cookie:
    
        print(item.name+"="+item.value)

            首先我们必须声明一个 CookieJar 对象,接下来我们就需要利用 HTTPCookieProcessor 来构建一个 handler ,最后利用 build_opener 方法构建出 opener ,执行 open() 即可。     

            运行结果:

    BAIDUID=A79E42193AF3BFA2D5EC5E46EB94667E:FG=1
    BIDUPSID=97EE42193AF3BFA2D5EC5E96EB54667E
    H_PS_PSSID=1953_21099_26950_26431_20930
    PSTM=1529797975
    BDSVRTM=0
    BD_HOME=0

          可以看出输出了每一条 Cookie 的名称还有值。
          不过既然能输出,那可不可以输出成文件格式呢?我们知道很多 Cookie 实际也是以文本形式保存的。
          我们用下面的实例来感受一下: 

    import http.cookiejar,urllib.request

    filename = 'cookie.txt' cookie = http.cookiejar.MozillaCookieJar(filename) handler = urllib.request.HTTPCookieProcessor(cookie) opener = urllib.request.build_opener(handler) response = opener.open('http://www.baidu.com') cookie.save(ignore_discard=True, ignore_expires=True)

        这时的 CookieJar 就需要换成 MozillaCookieJar ,生成文件时需要用到它,它是 CookieJar 的子类,可以用来处理 Cookie 和文件相关的事件,读取和保存 Cookie ,它可以将 Cookie 保存成 Mozilla 型的格式。
        运行之后可以发现生成了一个 cookie.txt 文件。

        结果如下:

    # Netscape HTTP Cookie File
    # http://curl.haxx.se/rfc/cookie_spec.html
    # This is a generated file! Do not edit.
    .baidu.com TRUE / FALSE 3622386254 BAIDUID 05A
    E39B5F56C1DEC474325CDA522D44F:FG=1
    .baidu.com TRUE / FALSE 3622386254 BIDUPSID 05
    AE39B5F56C1DEC474325CDA522D44F
    .baidu.com TRUE / FALSE H_PS_PSSID 19638_1453
    _17710_18240_21091_18560_17001_21191_21161
    .baidu.com TRUE / FALSE 3622386254 PSTM 147490
    2606
    www.baidu.com FALSE / FALSE BDSVRTM 0
    www.baidu.com FALSE / FALSE BD_HOME 0

        另外还有一个 LWPCookieJar ,同样可以读取和保存 Cookie ,但是保存的格式和 MozillaCookieJar 的不一样,它会保存成与libwww-perl的Set-Cookie3文件格式的 Cookie 。
        那么在声明时就改为

    cookie = http.cookiejar.LWPCookieJar(filename)

        运行结果:

    #LWP-Cookies-2.0
    Set-Cookie3: BAIDUID="0CE9C56F598E69DB375B7C294AE5C591:FG=1"; path="/"; domain=".baidu.com"; path_spec; domain_dot; expires="208
    4-10-14 18:25:19Z"; version=0
    Set-Cookie3: BIDUPSID=0CE9C56F598E69DB375B7C294AE5C591; path="/"; domain=".baidu.com"; path_spec; domain_dot; expires="2084-10-1
    4 18:25:19Z"; version=0
    Set-Cookie3: H_PS_PSSID=20048_1448_18240_17944_21089_21192_21161_20929; path="/"; domain=".baidu.com"; path_spec; domain_dot; di
    scard; version=0
    Set-Cookie3: PSTM=1474902671; path="/"; domain=".baidu.com"; path_spec; domain_dot; expires="2084-10-14 18:25:19Z"; version=0
    Set-Cookie3: BDSVRTM=0; path="/"; domain="www.baidu.com"; path_spec; discard; version=0
    Set-Cookie3: BD_HOME=0; path="/"; domain="www.baidu.com"; path_spec; discard; version=0

        那么生成了 Cookie 文件,怎样从文件读取并利用呢?
        下面我们以 LWPCookieJar 格式为例来感受一下:

    import http.cookiejar,urllib.request
    cookie
    = http.cookiejar.LWPCookieJar() cookie.load('cookie.txt', ignore_discard=True, ignore_expires=True) handler = urllib.request.HTTPCookieProcessor(cookie) opener = urllib.request.build_opener(handler) response = opener.open('http://www.baidu.com') print(response.read().decode('utf-8'))

         前提是我们首先利用上面的方式生成了 LWPCookieJar 格式的 Cookie ,然后利用 load() 方法,传入文件名称,后面同样的方法构建 handler 和 opener 即可。
        运行结果正常输出百度网页的源代码。

         4.异常处理

          a.  例一

    from urllib import reqeust,error
    
     try:
        response =request.urlopen('http://cuiqingcai.com/index.htm') 
    except error.URLError as e:
        print(e.reason)

     

          b.例二

    from urllib import reqeust,error
    
    try:
        response =request.urlopen('http://cuiqingcai.com/index.htm') 
    except error.HTTPError as e:
        print(e.reason,e.code,e.headers,sep='
    ')  
    except error.URLError as e:
        print(e.reason)  
    else:
        print('Request Successfully')

          c.例三

     

     

     

     

    这都是我对自己学习过程的理解,如有错误请指出!我算一个小白了。
  • 相关阅读:
    RTMP命令亲自测试记录
    如何在 i5 上实现 20 倍的 Python 运行速度?
    百倍加速!Python量化策略的算法性能提升指南
    谷歌推出 Python 性能加速方案
    用Cython加速Python到“起飞”
    Python GPU加速
    金融数学太复杂?看完这10部电影会不会轻松点!
    金融数学攻略+书单
    耳朵如何保养
    DataOps Reading Notes
  • 原文地址:https://www.cnblogs.com/darwinli/p/9115793.html
Copyright © 2011-2022 走看看