zoukankan      html  css  js  c++  java
  • Urllib库的基本用法

    1、什么是url?

    统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。

    基本URL包含模式(或称协议)、服务器名称(或IP地址)、路径和文件名,如“协议://授权/路径?查询”。完整的、带有授权部分的普通统一资源标志符语法看上去如下:协议://用户名:密码@子域名.域名.顶级域名:端口号/目录/文件名.文件后缀?参数=值#标志

    2、什么是Urllib库?

    Urllib是python内置的处理URL的库,
    包括以下模块
    urllib.request 打开、读URLs
    urllib.error 包含了request出现的异常
    urllib.parse url解析模块
    urllib.robotparser robots.txt解析模块(spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。您可以在您的网站中创建一个纯文本文件robots.txt,在文件中声明该网站中不想被robot访问的部分或者指定搜索引擎只收录特定的部分)

    3、实例

    (1)读一个网页

    import urllib.request
    with urllib.request.urlopen('http://www.baidu.com') as f:
        print(f.read(20).decode('utf8'))
    

      其中,urlopen返回的是一个字节类型的对象,这是由于urlopen不知道从服务器上读的数据该如何解码,需要我们自己对字符串解码。

    如上,可以打开百度的界面,

    可以看到,此页面用utf-8编码。

    当然,你也可以把代码改为:

    import urllib.request
    req = urllib.request.Request(url = 'http://www.baidu.com')
    with urllib.request.urlopen(req) as f:
        print(f.read(20).decode('utf8'))
    

      访问请求放置在Request类中,该类包含一些属性,可以传递数据等,此处不过于深究。

    (2)登陆动作(使用基础的HTTP身份验证)

  • 相关阅读:
    Leetcode 3:无重复字符的最长子串
    激光三角测量法在工业视觉检测上的应用
    通俗易懂的Harris 角点检测
    杂乱场景中的尺度层次三维目标识别
    多视图几何三维重建实战系列之R-MVSNet
    一文详解工业相机和镜头选取
    LOAM论文介绍与A-LOAM代码简介
    基于双目事件相机的视觉里程计
    在医学图像分析中使用ICP算法进行点云配准
    两种ICP的改进算法:PLICP与NICP
  • 原文地址:https://www.cnblogs.com/pinking/p/8012289.html
Copyright © 2011-2022 走看看