zoukankan      html  css  js  c++  java
  • Urllib库的基本用法

    1、什么是url?

    统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。

    基本URL包含模式(或称协议)、服务器名称(或IP地址)、路径和文件名,如“协议://授权/路径?查询”。完整的、带有授权部分的普通统一资源标志符语法看上去如下:协议://用户名:密码@子域名.域名.顶级域名:端口号/目录/文件名.文件后缀?参数=值#标志

    2、什么是Urllib库?

    Urllib是python内置的处理URL的库,
    包括以下模块
    urllib.request 打开、读URLs
    urllib.error 包含了request出现的异常
    urllib.parse url解析模块
    urllib.robotparser robots.txt解析模块(spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。您可以在您的网站中创建一个纯文本文件robots.txt,在文件中声明该网站中不想被robot访问的部分或者指定搜索引擎只收录特定的部分)

    3、实例

    (1)读一个网页

    import urllib.request
    with urllib.request.urlopen('http://www.baidu.com') as f:
        print(f.read(20).decode('utf8'))
    

      其中,urlopen返回的是一个字节类型的对象,这是由于urlopen不知道从服务器上读的数据该如何解码,需要我们自己对字符串解码。

    如上,可以打开百度的界面,

    可以看到,此页面用utf-8编码。

    当然,你也可以把代码改为:

    import urllib.request
    req = urllib.request.Request(url = 'http://www.baidu.com')
    with urllib.request.urlopen(req) as f:
        print(f.read(20).decode('utf8'))
    

      访问请求放置在Request类中,该类包含一些属性,可以传递数据等,此处不过于深究。

    (2)登陆动作(使用基础的HTTP身份验证)

  • 相关阅读:
    2019年4月
    20190423
    20190419
    20190418
    20190417
    free命令详解(转载)
    https改造过程中的一个坑
    GitLab 实现代码自动部署(转载自https://segmentfault.com/a/1190000011561808)
    js和php写日历
    shell递归遍历目录的方法
  • 原文地址:https://www.cnblogs.com/pinking/p/8012289.html
Copyright © 2011-2022 走看看