python里我最容易搞不清楚问题之一的encode和decode

zoukankan html css js c++ java

python里我最容易搞不清楚问题之一的encode和decode
因为我自己整理在笔记本上好几次，但是今天看到的时候，又凌乱了。所以还是再次重新整理到博客上。

在计算机的世界里：

1 bytes(字节) == 8 bite(比特)；每个bite里存放0或1。

于是一个字节能表示的最大数是：11111111(2) == 255(10)；能表示的最小数是：00000000(2) == 0(10)

那么1个字节的范围是：[0, 2^8-1]；

同理2个字节的范围是：[0, 2^16-1]；以此类推···

电脑（是美国人发明的）最早使用的是ASCII编码准则，里面包含了127个字符，能够对应表示所有的大小写英文字母、数字、特殊符号。因为127<255，所以一个字节对于英文字符的处理是足够的。

但是汉字有几万个，一个字节是完全不够的。至少需要两个字节(2^16-1)，并且不与原来的ASCII编码冲突。所以中国制定了GB2312。

中国对应的GB2312；韩国对应的Euc-kr；日本对应的Shift-JIS等等。各国不统一的标准后，就会造成冲突：乱码。

于是统一的标准出现了：Unicode：把所有语言都统一到一套编码里。

Unicode的标准是：通常2个字节表示一个字符，非常生僻字符用4个字节表示。

Unicode解决了乱码冲突问题，同时带来了效率和内存问题：因为Unicode用2个字节表示一个字符，ASCII用1个字节表示。效率和存储上都是一倍的差距。

于是UTF-8编码诞生了：英文字符用1个字节、中文字符用3个字节、生僻字符4至6个字节。如果文本中包含大量英文字符，UTF-8就更节省空间，传输效率也更快。

（ASCII编码属于UTF-8的一部分，所以只支持ASCII编码的历史遗留软件可以在UTF-8编码下继续使用）

字符 ASCII Unicode UTF-8

A 01000001 00000000 01000001 01000001

中 x 01001110 00101101 11100100 10111000 10101101

python里有2种字符串：

字节码串：没有数据描述的数据

字符串：原始数据+数据描述（指出何种字符集）

python2里：

1.str：字节码串

2.unicode：字符串（定义时需要u''去声明）

因此在python2里，日常字符串的表示为：u'xxx'，当前编码设定下的字节码串的表示为：'xxx'。非常不方便，本末倒置。于是在python3里对其修改。

python3里：

1.bytes：字节码串

2.str：字符串（默认支持Unicode字符集，所以不需要u''去定义字符串）

所以在python3里，日常字符串的表示为：'xxx'，字节码串的表示为：b'xxx'。

所以现在一般认为python里有两种字符串：

1.存储文本的str：Unicode存储；len(str)是计算字符数

2.存储字节的bytes：原始字节序列ASCII存储；len(bytes)是计算字节数

bytes --decode--> unicode --encode--> bytes

encode()方法：
>>> 'abc'.encode('ascii') # 按照ascii编码将unicode字符串转换成bytes字节码串 b'abc' >>> '中文'.encode('utf-8') # 照ascii编码将unicode字符串转换成bytes字节码串 b'xe4xb8xadxe6x96x87' >>> '中文'.encode('ascii') # 因为ascii编码里没有中文字符，所以报错 Traceback (most recent call last): File "<pyshell#11>", line 1, in <module> '中文'.encode('ascii') UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)
decode()方法：
>>> b'abc'.decode('ascii') # 按照ascii编码将bytes字节码串解码为str字符串 'abc' >>> b'xe4xb8xadxe6x96x87'.decode('utf-8') # 按照utf-8编码将bytes字节码串解码为str字符串 '中文' >>> b'xe4xb8xadxff'.decode('utf-8') Traceback (most recent call last): File "<pyshell#15>", line 1, in <module> b'xe4xb8xadxff'.decode('utf-8') UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 3: invalid start byte >>> b'xe4xb8xadxff'.decode('utf-8', errors='ignore') # 设置错误处理方案为‘ignore’便可忽略xff的错误 '中'
写完我自己清楚多啦～
查看全文

相关阅读:
Half Nice Years Gym
LCM from 1 to n
Educational Codeforces Round 70 (Rated for Div. 2)
Rating（概率DP） HDU
Josephina and RPG（概率DP） ZOJ
数据结构实验之串二：字符串匹配（字符串哈希）
点分治——入门学习笔记
 使用ASP.NET Core 3.x 构建 RESTful API P15 处理故障
 使用ASP.NET Core 3.x 构建 RESTful API P13 P14 获取父子关系的资源
 使用ASP.NET Core 3.x 构建 RESTful API P11 P12 ActionResult of T 以及 AutoMapper

原文地址：https://www.cnblogs.com/hongdanni/p/10484874.html

字符	ASCII	Unicode	UTF-8
A	01000001	00000000 01000001	01000001
中	x	01001110 00101101	11100100 10111000 10101101