zoukankan      html  css  js  c++  java
  • python中文转换url编码

    今天要处理百度贴吧的东西。想要做一个关键词的list,每次需要时,直接添加 到list里面就可以了。但是添加到list里面是中文的情况(比如‘丽江’),url的地址编码却是’%E4%B8%BD%E6%B1%9F’,因此需 要做一个转换。这里我们就用到了模块urllib。

    >>> import urllib

    >>> data = ‘丽江’

    >>> print data

    丽江

    >>> data

    ‘xe4xb8xbdxe6xb1x9f’

    >>> urllib.quote(data)

    ‘%E4%B8%BD%E6%B1%9F’

    那我们想转回去呢?

    >>> urllib.unquote(‘%E4%B8%BD%E6%B1%9F’)

    ‘xe4xb8xbdxe6xb1x9f’

    >>> print urllib.unquote(‘%E4%B8%BD%E6%B1%9F’)

    丽江

    细心的同学会发现贴吧url中出现的是%C0%F6%BD%AD,而非’%E4%B8%BD%E6%B1%9F’,其实是编码问题。百度的是gbk,其他的一般网站比如google就是utf8的。所以可以用下列语句实现。

    >>> import sys,urllib

    >>> s = ‘丽江’

    >>> urllib.quote(s.decode(sys.stdin.encoding).encode(‘gbk’))

    ‘%C0%F6%BD%AD’

    >>> urllib.quote(s.decode(sys.stdin.encoding).encode(‘utf8′))

    ‘%E4%B8%BD%E6%B1%9F’

    >>>

  • 相关阅读:
    Html5结构相关元素
    html5文本元素
    html5全局属性
    元数据元素总结
    千里之行,始于足下
    换个角度思考
    java的权限修饰符
    四则运算
    测量软件使用感受
    JQuery高级
  • 原文地址:https://www.cnblogs.com/mmix2009/p/3220985.html
Copyright © 2011-2022 走看看