zoukankan      html  css  js  c++  java
  • 爬虫学习笔记-urllib库

    urllib库是python中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。

    urlopen函数:在python3的urllib库中,所有和网络请求相关的方法,都被集到urllib.request模块下面了

    urlopen函数基本的使用:

    url:请求的url

    data:请求的data

    返回值:返回值是一个 http.client.HTTPResponse对象,这个对象是一个类文件句柄对象

    read(size)、readline、readlines以及getcode等方法

     urlretrieve函数:

    这个函数可以方便的将网页上的一个文件保存到本地

    urlencode函数:

    用浏览器发送请求的时候,如果url中包含了中文或者其他特殊字符,那么浏览器会自动给我么编码。而如果使用代码发送请求,那么就必须手动的进行编码,这时候就应该使用urlencode函数来实现,urlencode可以把字典数据转换为URL编码的数据

     parse_qs函数:

    可以将经过编码后的url参数进行解码

    urlparse和urlsplit:

    有时候拿到一个url,想要对这个url中的各个组成部分进行分割,那么这时候就可以使用urlparse或者是urlsplit来进行分割

    urlparse和urlsplit基本上是一模一样,唯一不一样的是

    urlparse多了一个params属性

    url = "http://www.baidu.com/s;hello?wd=python&username=abc#1"
    urlparse可以获取到hello,而urlsplit获取不到

  • 相关阅读:
    html5对分辨率和设备的嗅探方法
    给前端苦手的同学们一点建议——前端之所以难学,可能的原因
    css3学习笔记
    关于viewport的一些问题
    js通过as完成socket通信
    【数学】数论常识
    AbstractFactory 模式
    State 模式
    Strategy 模式
    error LNK2001
  • 原文地址:https://www.cnblogs.com/yronl/p/9298310.html
Copyright © 2011-2022 走看看