zoukankan      html  css  js  c++  java
  • (25)python urllib库

    urllib包包含4个模块,在python3里urllib导入要用包名加模块名的方式。

    1.urllib.request

    该模块主要用于打开HTTP协议的URL

    import urllib.request

    抓取某个网址的所有HTML代码,返回一个request对象。(网址要带上协议)

    urlobject=urllib.request.urlopen('http://www.baidu.com')

    用对象的read方法

    print (urlobject.read(10))#打印出前10个字符,游标向后移动10位。如果read方法里不写数字默认打印出全部代码

    返回字节型数据

    >>> type(urlobject.read(10))
    <class 'bytes'>
    >>> print (urlobject.read(10))
    b'<!DOCTYPE '
    >>> print (urlobject.read(15))
    b'html>
    <!--STATU'
    >>> print (urlobject.read(15))
    b'S OK-->
    
    
    
    
    '
    >>> 

    执行了三次观察了下,都已字母b开头加一个字符串,字符串里面的字符串就是read括号里的数量, 或 占一个字符

    2.urllib.parse

    3.urllib.error

    4.urllib.robotparser

  • 相关阅读:
    sed命令
    python常用库
    python标准库
    从 Python 打包到 CLI 工具
    pip
    python包自我理解
    docker常用命令
    chattr命令
    xmss
    live2d-widget.js
  • 原文地址:https://www.cnblogs.com/buchizaodian/p/7052443.html
Copyright © 2011-2022 走看看