zoukankan      html  css  js  c++  java
  • python中文转换url编码

    今天要处理百度贴吧的东西。想要做一个关键词的list,每次需要时,直接添加 到list里面就可以了。但是添加到list里面是中文的情况(比如‘丽江’),url的地址编码却是’%E4%B8%BD%E6%B1%9F’,因此需 要做一个转换。这里我们就用到了模块urllib。

    >>> import urllib

    >>> data = ‘丽江’

    >>> print data

    丽江

    >>> data

    ‘xe4xb8xbdxe6xb1x9f’

    >>> urllib.quote(data)

    ‘%E4%B8%BD%E6%B1%9F’

    那我们想转回去呢?

    >>> urllib.unquote(‘%E4%B8%BD%E6%B1%9F’)

    ‘xe4xb8xbdxe6xb1x9f’

    >>> print urllib.unquote(‘%E4%B8%BD%E6%B1%9F’)

    丽江

    细心的同学会发现贴吧url中出现的是%C0%F6%BD%AD,而非’%E4%B8%BD%E6%B1%9F’,其实是编码问题。百度的是gbk,其他的一般网站比如google就是utf8的。所以可以用下列语句实现。

    >>> import sys,urllib

    >>> s = ‘丽江’

    >>> urllib.quote(s.decode(sys.stdin.encoding).encode(‘gbk’))

    ‘%C0%F6%BD%AD’

    >>> urllib.quote(s.decode(sys.stdin.encoding).encode(‘utf8′))

    ‘%E4%B8%BD%E6%B1%9F’

    >>>

  • 相关阅读:
    滚动图片
    Iframe自动适应高度
    我的生活,我的精彩!
    静下心来
    写给关心我的人
    关于考研
    按时间自动刷新页面
    破除网页鼠标右键禁用的十大绝招
    DotNetNuke 皮肤制作白皮书
    WollOp
  • 原文地址:https://www.cnblogs.com/mmix2009/p/3220985.html
Copyright © 2011-2022 走看看