在计算机中,所有数据的存储、运算以及传输都必须是二进制数字,因为计算机只认识0和1。
当一个人把一份数据传给另一个人时,计算机传递的是其实是二进制数字,但这些数字需要被还原为原始信息。
这个工作当然是由计算机完成。
它完成的前提是,它要知道这些二进制数具体代表哪些字符。
而这个需要人为定义。
因为世界上的语言不尽相同,自然不可能全部使用同样的规则。
于是出现了ASCII、Unicode、UTF-8、GBK等等对应规则。
有了这些规则以后,计算机就能够将二进制数字翻译为我们能读懂的信息。
但这个前提是,计算机要知道使用哪种对应规则,这个就需要我们去告诉它。
当我们在Python中打开一个文件时,那一串串的二进制数字早就在那里等候了,于是就被计算机读取到了内存中。
你要是不告诉计算机用哪种规则去还原这些0和1,那它可能就不会返回给你想要的信息。
所以我们在打开文件时,写入encoding=“utf-8”,就是告诉计算机,将这些0和1以utf-8编码方式去解读。
用什么规则进行的编码,就需要用相同的规则去解码,如果不一致,就是产生乱码的原因了。