回顾编码问题:
编码相当于密码本,关系到二进制与看懂的文字的对应关系
最早的密码本:
ascii 码:值包含英文字母,数字,特殊字符。
字符:组成你看到的内容的最小单位就是字符。
位:二进制中占有的位置,就是位。
字节:8位表示一个字节。
对于ascii吗,一个字符是用8位一个字节去表示。
unicode 万国码:将全世界所有的文字都给我汇总到一起。
起初:unicode:
一个字符用16位表示
最终:unicode :
一个字符用32位表示
浪费:占用资源
utf-8 :最少用8位表示一个字符,对unicode升级。
欧洲文字:一个字符用16位表示
亚洲文字:一个字符用24位表示
gbk:国标
英文字母:一个字节表示,中文两个字节表示。
前提:
文件的存储和传输,不能用unicode编码
除了unicode 剩下的编码方式不能直接识别
python 3x版本
int
str--->在内存中用的unicode
bytes类型
list
bool
dict
set
tuple
英文:
str:
表现形式:s ='' oldboy''
内部编码: unicode
bytes:
表现形式: b1 =b'oldboy'
内部编码:非unicode