python解释器在加载.py文件中的代码时,会对内容进行编码(默认ASCII)
ASCII(美国标准信息交换代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言,其最多只能用8位来表示(一个字节,等于8个比特(bit)),即:2**8 = 256-1,所以,ASCII码最多只能表示255个符号。
为了处理汉字,程序员设计了用于简体中文的GB2312(7445个字符)和用于繁体中文的big5。
GB2312支持的汉字太少。1995年的汉字扩展规范GBK1.0收录了21886个符号,它分为汉子区和图形符号区。汉字区包括21003个字符。
2000年的GB18030是取代GBK1.0的正式国家标准,该标准收录了27484个汉字,同时还收录了一些少数民族的文字。现在的PC平台必须支持GB18030,对嵌入式产品暂不做要求。所以手机,MP3一般只支持GB2312.
由于ASCII码无法将世界上的各种文字和符号全部显示,所以,Unicode就诞生了。
Unicode(统一码、万国码)是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,规定虽有的字符和符号最少由16位来表示(2个字节),即:2**16 = 65536。
UTF-8,是对Unicode编码的压缩和优化,它不再使用最少2个字节,而是将所有的字符和符号进行分类:ASCII码中的内容用1个字节保存、欧洲的字符用2个字节保存,东亚的字符用3个字节保存......
字符编码转换
python2跟python3的区别是:
1.python2默认编码是ASCII,python3是Unicode
2.python3在转换的时候还转为二进制类型(bytes)
解码会decode成Unicode,解码时需指定之前的编码;
编码encode指定目标编码。