zoukankan      html  css  js  c++  java
  • python中文转换url编码

    今天要处理百度贴吧的东西。想要做一个关键词的list,每次需要时,直接添加 到list里面就可以了。但是添加到list里面是中文的情况(比如‘丽江’),url的地址编码却是’%E4%B8%BD%E6%B1%9F’,因此需 要做一个转换。这里我们就用到了模块urllib。

    >>> import urllib

    >>> data = ‘丽江’

    >>> print data

    丽江

    >>> data

    ‘xe4xb8xbdxe6xb1x9f’

    >>> urllib.quote(data)

    ‘%E4%B8%BD%E6%B1%9F’

    那我们想转回去呢?

    >>> urllib.unquote(‘%E4%B8%BD%E6%B1%9F’)

    ‘xe4xb8xbdxe6xb1x9f’

    >>> print urllib.unquote(‘%E4%B8%BD%E6%B1%9F’)

    丽江

    细心的同学会发现贴吧url中出现的是%C0%F6%BD%AD,而非’%E4%B8%BD%E6%B1%9F’,其实是编码问题。百度的是gbk,其他的一般网站比如google就是utf8的。所以可以用下列语句实现。

    >>> import sys,urllib

    >>> s = ‘丽江’

    >>> urllib.quote(s.decode(sys.stdin.encoding).encode(‘gbk’))

    ‘%C0%F6%BD%AD’

    >>> urllib.quote(s.decode(sys.stdin.encoding).encode(‘utf8′))

    ‘%E4%B8%BD%E6%B1%9F’

    >>>

  • 相关阅读:
    免密码远程登录和远程操作
    1、linux网络服务实验 用PuTTY连接Linux
    巧用CAS解决数据一致性问题
    第一天
    图像处理02
    图像处理01
    Poem 01(转)
    CS229 Lecture 01
    日本語1
    latex测试
  • 原文地址:https://www.cnblogs.com/mmix2009/p/3220985.html
Copyright © 2011-2022 走看看