在linux中获取系统编码结果:
Windows系统的编码,代码页936表示GBK编码
可以看到linux系统默认使用UTF-8编码,windows默认使用GBK编码。Linux环境下,文件默认使用UTF-8编码。当然你也可以指定文件编码方式。
这个时候需要告诉python解释器用utf-8去解读python源文件
Python解释器内部默认使用的ASCII编码方式去解读python源文件
Python字符编码
Python2中有两类字符串,分别是str与unicode。这两类字符串都派生自抽象类basestring。
Str即普通字符串类型
在字符串前加上u即unicode编码
在代码中通常用到的是unicode,文件保存的是utf-8编码。Unicode编码是固定2个字节代表一个字符。Utf-8是对英文只用一个字节,对中文是3个字节。所以unicode运行效率高,utf-8运行效率相比要低,但是空间存储要小。
GBK->Unicode
GBK->Unicode->UTF-8
Python中UTF-8与unicode转换
Unicode转UTF-8
UTF-8转Unicode
1种使用unicode函数
其函数中参数UTF-8是,以utf-8编码对unicode对象解码,或编码。
1种使用decode函数转换