在 Python 里,有三大类 string 类型,unicode
(text string),str
(byte string,二进制数据),basestring
,是前两者的父类。
其实,在语言设计领域,一串字节(sequences of bytes)是否应该当做字符串(string)一直是存在争议的。
我们熟知的 Java 和 C# 投了反对票,而 Python 则站在了支持者的阵营里。其实我们在很多情况下,给文本做的操作,比如正则匹配、字符替换等,对于字节来说是用不着的。
而 Python 认为字节就是字符,所以他们俩的操作集合是一致的。
然后进一步的,Python 会在必要的情况下,尝试对字节做自动类型转换,例如,在上文中的 ==
,或者字节和文本拼接时。
如果没有一个编码(encoding),两个不同类型之间的转换是无法进行的,于是,Python 需要一个默认编码。
在 Python2 诞生的年代,ASCII 是最流行的(可以这么说吧),于是 Python2 选择了 ASCII。然而,众所周知,在需要需要转换的场景,ASCII 都是没用的(128个字符,够什么吃)。
在历经这么多年吐槽后,Python 3 终于学乖了。默认编码是 Unicode,这也就意味着,做所有需要转换的场合,都能正确并成功的转换。
- 所有 text string 都应该是 unicode 类型,而不是 str,如果你在操作 text,而类型却是 str,那就是在制造 bug。
- 在需要转换的时候,显式转换。从字节解码成文本,用
var.decode(encoding)
,从文本编码成字节,用var.encode(encoding)
。 - 从外部读取数据时,默认它是字节,然后
decode
成需要的文本;同样的,当需要向外部发送文本时,encode
成字节再发送。
例如:str是读取文件的split后的字符串,要判断二个字符串相等,str.encode('utf-8')=='你好'这样才可以,不然的话会带u''字符,无法判断和中文相等。
参考:https://blog.ernest.me/post/python-setdefaultencoding-unicode-bytes