python编码问题

zoukankan html css js c++ java

python编码问题
在 Python 里，有三大类 string 类型，unicode（text string），str（byte string，二进制数据），basestring，是前两者的父类。

其实，在语言设计领域，一串字节（sequences of bytes）是否应该当做字符串（string）一直是存在争议的。

我们熟知的 Java 和 C# 投了反对票，而 Python 则站在了支持者的阵营里。其实我们在很多情况下，给文本做的操作，比如正则匹配、字符替换等，对于字节来说是用不着的。

而 Python 认为字节就是字符，所以他们俩的操作集合是一致的。

然后进一步的，Python 会在必要的情况下，尝试对字节做自动类型转换，例如，在上文中的 ==，或者字节和文本拼接时。

如果没有一个编码（encoding），两个不同类型之间的转换是无法进行的，于是，Python 需要一个默认编码。

在 Python2 诞生的年代，ASCII 是最流行的（可以这么说吧），于是 Python2 选择了 ASCII。然而，众所周知，在需要需要转换的场景，ASCII 都是没用的（128个字符，够什么吃）。

在历经这么多年吐槽后，Python 3 终于学乖了。默认编码是 Unicode，这也就意味着，做所有需要转换的场合，都能正确并成功的转换。
- 所有 text string 都应该是 unicode 类型，而不是 str，如果你在操作 text，而类型却是 str，那就是在制造 bug。
- 在需要转换的时候，显式转换。从字节解码成文本，用 var.decode(encoding)，从文本编码成字节，用 var.encode(encoding)。
- 从外部读取数据时，默认它是字节，然后 decode 成需要的文本；同样的，当需要向外部发送文本时，encode 成字节再发送。
例如：str是读取文件的split后的字符串，要判断二个字符串相等，str.encode('utf-8')=='你好'这样才可以，不然的话会带u''字符，无法判断和中文相等。

参考：https://blog.ernest.me/post/python-setdefaultencoding-unicode-bytes
查看全文

相关阅读:
Netflix Ribbon（负载均衡）介绍
 Annotation 注解
 框架设计的灵魂-反射
 idea maven java.lang.outofmemoryerror gc overhead limit exceeded
洛谷P4427 [BJOI2018]求和
 洛谷P1196 [NOI2002]银河英雄传说
 CF191C Fools and Roads
洛谷P2296 寻找道路
 洛谷P3389 【模板】高斯消元法
 洛谷P1351 联合权值

原文地址：https://www.cnblogs.com/Kaivenblog/p/9008630.html