Python 2中万恶的字符编码

zoukankan html css js c++ java

Python 2中万恶的字符编码

Python2中如果文件存在中文，必须要指定#-*- coding:utf8 -*-或#coding:utf8，否则会报错。那这是为什么呢？

一、原理解析

　　我们知道，在计算机发展初期，计算机只能识别字母，数字和一些基本符号，其使用8位存储空间存储所有的内容，也就是2^8=256个不同的结果，这就是ASCII码。在当时的情况下，并没有想到日后其他语言文字的扩展，随着不断的发展，对计算机的使用越来越广泛，使用8位存储空间早已不能满足人们的日常需求，所以Unicode(万国码)就这样诞生了。顾名思义，Unicode包含了所有国家所有不同的文字，它的存储空间由8位存储空间提升到了至少16位存储空间，也就是至少2^16=65536个不同的结果，这足以满足人们日常的需要，这就恰恰是Python2中使用的字符编码，但是问题又随之而来，如果在初期使用ASCII字符编码保存数字1，那么它的存储方式为0000001;而使用Unicode保存数字1的话，那么存储方式就扩大为00000000 00000001，虽然这样存储的数据没有任何问题，但是会白白浪费了很大的空间。聪明的人们又针对Unicode发明了UTF-8、 GBK、GB2312等字符编码，这类字符编码都是针对Unicode编码的进一步优化，它们都处于同一级的字符编码。以UTF-8字符编码为例来说能够满足存储于ASCII字符编码的(数字、字符、字母)都会按照8位存储空间存储，当遇到欧洲文字时会选择16位存储空间进行存储，也就是两个字节存储，当遇到汉字会使用24位存储空间存储，也就是三个字节存储。由此可以看出，UTF-8、GBK等相比对Unicode它是对其一个优化，针对存储不同的文字，使用不同的存储空间位数。

　　从上可知，在Python2中文件起始要明确指定字符编码，如果不指定系统会直接报错，而这就涉及到了字符编码的转换问题：当从UTF-8字符编码转换到GBK字符编码是不能够直接转换的，需要从UTF-8编码执行decode方法进行解码操作，此时的字符编码已转换为Unicode，然后再将Unicode编码使用encode方法进行编码操作，转换为GBK字符编码。之所以说Python2中字符编码让人头疼，指的就是UTF-8同级的字符编码转换GBK同级的字符编码，需要用到Unicode字符编码来进行转化。(参考下图)

　　

　　在Python3中默认全局指定UTF-8字符编码，即使没有指定字符编码设置，依然能够正常的打印输出；在Python中不存在解码操作的必要，但仍需要编码操作。

二、总结

　　Python2中的不同字符编码之间如果需要相互转换，需要借助Unicode来完成，不能做到不同字符编码之间的相互转换；而这点在Python3中已经得到优化，将所有字符编码默认设置为UTF-8，彻底解决了因为字符编码头疼的问题。

查看全文

相关阅读:
String的equals和hashCode方法
 查看oracle中表的索引
 初识RESTful
linux安装字体库（simSun为例）
排序之快排（JS）
面向对象的三个基本特征和五种设计原则
 排序之希尔排序（JS）
关于正则表达式
 Oracle 表分区介绍与使用
 一个复杂关联的sql

原文地址：https://www.cnblogs.com/stefan-liu/p/5129528.html

Python 2中万恶的字符编码

Python2中如果文件存在中文，必须要指定#-*- coding:utf8 -*-或#coding:utf8，否则会报错。那这是为什么呢？

一、原理解析

二、总结

**Python2中如果文件存在中文，必须要指定#-- coding:utf8 --或#coding:utf8，否则会报错。那这是为什么呢？**