字符编码
先介绍几类常见的编码格式:
ASCII
- 只能表示英文字符,用1bytes对应一个英文字符
GBK
- 可以表示中文和英文字符,用1bytes对应一个英文字符,2bytes对应一个中文字符
unicode
- 可以对应所有国家的字符,统一用2bytes对应一个字符
所谓编码格式,可以想象成 记录和它对应的二进制数的关系的 一张表格
utf-8
- utf-8是unicode格式的字符进行存储和传输的一种实现方式
- 3bytes对应一个中文字符,1bytes对应一个英文字符
PS:
- 保证不乱码的关键: 字符以什么编码的,就以什么解码,此时计算机只使用unicode与字符的对应关系
- pyhon2中unicode就是python3的str类型
- 在文件首行写上coding : utf-8就是在告诉python解释器,用文件头指定的编码