Day2-Python基础2---字符编码与转码

zoukankan html css js c++ java

Day2-Python基础2---字符编码与转码
详细内容http://www.cnblogs.com/yuanchenqi/articles/5956943.html

一、编码介绍：

1、基本概念：
- 在python 2中默认编码是 ASCII，而在python 3中默认编码是 unicode
- unicode 分为utf-32 (占4个字节),utf-16(占两个字节)，utf-8(占1-4个字节)，所以utf-16 是最常用的unicode版本，但是在文件里存的还是utf-8，因为utf8省空间
- 在python 3,encode编码的同时会把stringl变成bytes类型，decode解码的同时会把bytes类型变成string类型
- 在unicode编码中 1个中文字符=2个字节，1个英文字符 = 1个字节，切记：ASCII是不能存中文字符的
- utf-8是可变长字符编码,它是unicode的优化，所有的英文字符依然按ASCII形式存储，所有的中文字符统一是3个字节
- unicode包含了所有国家的字符编码，不同字符编码之间的转换都需要经过unicode的过程
- python本身的默认编码是utf-8
2、python2中的编码和转码的过程，如图：

注：因为unicode是中间编码，任何字符编码之前的转换都必须解码成unicode，在编码成需要转的字符编码

3、py3的字符编码转换

在基本概念中已经说到python 3的编码，默认是unicode，所以字符编码之间的转换不需要decode过程，直接encode即可，代码如下：
1 string = "你好" 2 #string现在是utf-8的编码格式，属于unicode编码，无需要decode,直接encode 3 s_to_gbk = string.encode("gbk") 4 print(s_to_gbk) 5 #反过来，gbk要是转换为utf-8需要先解码成unicode，在编码成utf-8 6 gbk_to_utf8 = s_to_gbk.decode("gbk").encode("utf-8") 7 print(gbk_to_utf8) 8 #编码成utf-8 9 decode_utf8 = gbk_to_utf8.decode("utf-8") 10 print(decode_utf8)
注：在python 3,encode编码的同时会把stringl变成bytes类型，decode解码的同时会把bytes类型变成string类型，所以你就不难看出encode后的把它变成了一个bytes类型的数据。还有需要特别注意的是：不管是否在python 3的文件开头申明字符编码，只能表示，这个python文件是这个字符编码，文件中的字符串还是unicode。
查看全文

相关阅读:
founder面试题
 项目bug的修正
 Linux下分割、合并PDF（pdftk），用于Linux系统的6款最佳PDF页面裁剪工具
 Vim global命令和重复操作
 嵌入式linux GUI--DirectFB + GTK至尊秘笈
 让QT/Embedded支持国际化
 开篇－QT完全手册
 java多线程样例
 Windows Minifilter驱动
 poj 3735 大数量反复操作问题（矩阵高速幂）

原文地址：https://www.cnblogs.com/bldly1989/p/6548533.html

Day2-Python基础2---字符编码与转码

详细内容http://www.cnblogs.com/yuanchenqi/articles/5956943.html

一、编码介绍：

1、基本概念：

3、py3的字符编码转换