zoukankan      html  css  js  c++  java
  • 解析链接

    解析链接

    1. urlparse

      解析url,将一个url解析为六个部分分别为

      scheme、netloc、path、params、query、fragment。

      例子如下:
      from urllib.parse import urlparse result = urlparse('http://www.baidu.com/index.html;user?id=5#comment') print(type(result), result)
      结果是<class 'urllib.parse.ParseResult'> ParseResult(scheme='http', netloc='www.baidu.com', path='/index.html', params='user', query='id=5', fragment='comment')

    2. urlunparse

      它接受的参数是一个可迭代对象,但是它的长度必须是 6,否则会抛出参数数量不足或者过多的问题。
      例子如下:

      from urllib.parse import urlunparse data = ['http', 'www.baidu.com', 'index.html', 'user', 'a=6', 'comment'] print(urlunparse(data))
      结果输出一个url为http://www.baidu.com/index.html;user?a=6#comment

    3. urlsplit

      这个和 urlparse() 方法非常相似,只不过它不会单独解析 parameters 这一部分,只返回五个结果。

    4. urlunsplit

      与 urlunparse() 类似,也是将链接的各个部分组合成完整链接的方法,传入的也是一个可迭代对象,例如列表、元组等等,唯一的区别是,长度必须为 5。

    5. urljoin

      生成链接还有另一个方法,利用 urljoin() 方法我们可以提供一个 base_url(基础链接),新的链接作为第二个参数,方法会分析 base_url 的 scheme、netloc、path 这三个内容对新链接缺失的部分进行补充,作为结果返回。

    6. urlencode

      我们首先声明了一个字典,将参数表示出来,然后调用 urlencode() 方法将其序列化为 URL 标准 GET 请求参数。

    7. parse_qs

      有了序列化必然就有反序列化,如果我们有一串 GET 请求参数,我们利用 parse_qs() 方法就可以将它转回字典

    8. parse_qsl

      parse_qsl() 方法可以将参数转化为元组组成的列表

    9. quote

      quote() 方法可以将内容转化为 URL 编码的格式,有时候 URL 中带有中文参数的时候可能导致乱码的问题,所以我们可以用这个方法将中文字符转化为 URL 编码。

    10. unquote

      有了 quote() 方法当然还有 unquote() 方法,它可以进行 URL 解码。

    文章参考链接:python3网络爬虫开发实战

  • 相关阅读:
    一口气说出9种分布式ID生成方式,面试官有点懵
    13个Mongodb GUI可视化管理工具,总有一款适合你
    基于mysql-8.0.16-winx64的主从搭建(Windows10系统)
    Windows10安装多个版本的PostgreSQL数据库,但是均没有自动注册Windows服务的解决方法
    Win10安装多个MySQL实例
    内核编译步骤及模块管理
    进程管理类命令
    进程监控类命令
    进程概念介绍
    文件打包压缩
  • 原文地址:https://www.cnblogs.com/qiujichu/p/11178727.html
Copyright © 2011-2022 走看看