zoukankan      html  css  js  c++  java
  • python中文转换url编码

    今天要处理百度贴吧的东西。想要做一个关键词的list,每次需要时,直接添加 到list里面就可以了。但是添加到list里面是中文的情况(比如‘丽江’),url的地址编码却是’%E4%B8%BD%E6%B1%9F’,因此需 要做一个转换。这里我们就用到了模块urllib。

    >>> import urllib

    >>> data = ‘丽江’

    >>> print data

    丽江

    >>> data

    ‘xe4xb8xbdxe6xb1x9f’

    >>> urllib.quote(data)

    ‘%E4%B8%BD%E6%B1%9F’

    那我们想转回去呢?

    >>> urllib.unquote(‘%E4%B8%BD%E6%B1%9F’)

    ‘xe4xb8xbdxe6xb1x9f’

    >>> print urllib.unquote(‘%E4%B8%BD%E6%B1%9F’)

    丽江

    细心的同学会发现贴吧url中出现的是%C0%F6%BD%AD,而非’%E4%B8%BD%E6%B1%9F’,其实是编码问题。百度的是gbk,其他的一般网站比如google就是utf8的。所以可以用下列语句实现。

    >>> import sys,urllib

    >>> s = ‘丽江’

    >>> urllib.quote(s.decode(sys.stdin.encoding).encode(‘gbk’))

    ‘%C0%F6%BD%AD’

    >>> urllib.quote(s.decode(sys.stdin.encoding).encode(‘utf8′))

    ‘%E4%B8%BD%E6%B1%9F’

    >>>

  • 相关阅读:
    Fibonacci Again
    N的10000的阶乘
    HDU2141(二分搜索)
    POJ2366(HASH法)
    10106 Product
    UVA 401 Palindromes
    UVA424 Integer Inquiry
    POJ2503(二分搜索)
    mysql重置root密码
    tidb安装haproxy负载均衡
  • 原文地址:https://www.cnblogs.com/mmix2009/p/3220985.html
Copyright © 2011-2022 走看看