zoukankan      html  css  js  c++  java
  • python unicode、utf-8、gbk编码与解码展示

    linux系统:

    encode():编码
    decode():解码
    repr():返回一个可以用来表示对象的可打印的字串
    [oracle@10-248-57-246 ~]$ locale
    LANG=zh_CN.UTF-8
    LC_CTYPE="zh_CN.UTF-8"  #系统为utf-8编码设置
    LC_NUMERIC="zh_CN.UTF-8"
    LC_TIME="zh_CN.UTF-8"
    LC_COLLATE="zh_CN.UTF-8"
    LC_MONETARY="zh_CN.UTF-8"
    LC_MESSAGES="zh_CN.UTF-8"
    LC_PAPER="zh_CN.UTF-8"
    LC_NAME="zh_CN.UTF-8"
    LC_ADDRESS="zh_CN.UTF-8"
    LC_TELEPHONE="zh_CN.UTF-8"
    LC_MEASUREMENT="zh_CN.UTF-8"
    LC_IDENTIFICATION="zh_CN.UTF-8"
    LC_ALL=
    [oracle@10-248-57-246 ~]$ python
    Python 2.7.10 (default, Aug 24 2020, 16:42:49) 
    [GCC 4.8.5 20150623 (Red Hat 4.8.5-36)] on linux2
    Type "help", "copyright", "credits" or "license" for more information.
    >>> a='中文'
    >>> a
    'xe4xb8xadxe6x96x87' #utf-8编码
    >>> import chardet
    >>> print chardet.detect(a)
    {'confidence': 0.7525, 'language': '', 'encoding': 'utf-8'}
    >>> s=a.encode('utf-8')
    Traceback (most recent call last):
      File "<stdin>", line 1, in <module>
    UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)
    >>> s=a.decode('utf-8')
    >>> a
    'xe4xb8xadxe6x96x87'
    >>> s
    u'u4e2du6587' #unicode编码
    >>> repr(a)
    "'\xe4\xb8\xad\xe6\x96\x87'"
    >>> repr(s)
    "u'\u4e2d\u6587'"
    >>> k=s.encode('gbk')
    >>> k
    'xd6xd0xcexc4' #gbk编码
    >>> print chardet.detect(k)
    {'confidence': 0.682639754276994, 'language': 'Russian', 'encoding': 'KOI8-R'} ##gbk编码
    >>                                                                                 
    

      

    windows系统:

    可以得到操作系统的代码页信息,你可以从控制面板的语言选项中查看代码页对应的详细的字符集信息。

    我的活动代码页为:936,它对应的编码格式为GBK。

    代码页是字符集编码的别名,也有人称"内码表"。早期,代码页是IBM称呼电脑BIOS本身支持的字符集编码的名称。当时通用的操作系统都是命令行界面系统,这些操作系统直接使用BIOS供应的VGA功能来显示字符,操作系统的编码支持也就依靠BIOS的编码。现在这BIOS代码页被称为OEM代码页。图形操作系统解决了此问题,图形操作系统使用自己字符呈现引擎可以支持很多不同的字符集编码。

      早期IBM和微软内部使用特别数字来标记这些编码,其实大多的这些编码已经有自己的名称了。虽然图形操作系统可以支持很多编码,很多微软程序还使用这些数字来点名某编码。

    下表列出了所有支持的代码页及其国家(地区)或者语言: 
    代码页       国家(地区)或语言 
    437          美国 
    708          阿拉伯文(ASMO 708)
    720          阿拉伯文(DOS)
    850          多语言(拉丁文 I) 
    852          中欧(DOS) - 斯拉夫语(拉丁文 II) 
    855          西里尔文(俄语) 
    857          土耳其语 
    860          葡萄牙语 
    861          冰岛语 
    862          希伯来文(DOS)
    863          加拿大 - 法语 
    865          日耳曼语 
    866          俄语 - 西里尔文(DOS) 
    869          现代希腊语
    874          泰文(Windows)
    932          日文(Shift-JIS)
    936          中国 - 简体中文(GB2312)
    949          韩文
    950          繁体中文(Big5)
    1200         Unicode        
    1201         Unicode (Big-Endian)
    1250         中欧(Windows)
    1251         西里尔文(Windows)
    1252         西欧(Windows)
    1253         希腊文(Windows)
    1254         土耳其文(Windows)
    1255         希伯来文(Windows)
    1256         阿拉伯文(Windows)
    1257         波罗的海文(Windows)
    1258         越南文(Windows)
    20866        西里尔文(KOI8-R)
    21866        西里尔文(KOI8-U)
    28592        中欧(ISO)
    28593        拉丁文 3 (ISO)
    28594        波罗的海文(ISO)
    28595        西里尔文(ISO)
    28596        阿拉伯文(ISO)
    28597        希腊文(ISO)
    28598        希伯来文(ISO-Visual)
    38598        希伯来文(ISO-Logical)
    50000        用户定义的
    50001        自动选择
    50220        日文(JIS)
    50221        日文(JIS-允许一个字节的片假名)
    50222        日文(JIS-允许一个字节的片假名 - SO/SI)
    50225        韩文(ISO)
    50932        日文(自动选择)
    50949        韩文(自动选择)
    51932        日文(EUC)
    51949        韩文(EUC)
    52936        简体中文(HZ)
    65000        Unicode (UTF-7)
    65001        Unicode (UTF-8)
    

      

  • 相关阅读:
    eclipse maven 插件 安装 和 配置
    Windows下 maven3.0.4的安装步骤+maven配置本地仓库
    js中转换Date日期格式
    Java 集合类详解
    java的反射机制
    Java 单例模式详解
    Http协议与TCP协议简单理解
    初识JavaScript,Ajax,jQuery,并比较三者关系
    MyBatis
    MyEclipse、Eclipse优化设置
  • 原文地址:https://www.cnblogs.com/apple2016/p/14250444.html
Copyright © 2011-2022 走看看