Python | 多种编码文件（中文）乱码问题解决

zoukankan html css js c++ java

Python | 多种编码文件（中文）乱码问题解决
1

可以知道的是，文本文件的默认编码并不是utf8。

我们打开一个文本文件，并点击另存为

2

我们在新窗口的编码一栏看到默认编码是ANSI。先不管这个编码是什么编码，但是通过下拉列表我们知道，这种编码不是utf8。

END

编码测试

1

对于Python里面的中文显示，我们常常使用utf8和gbk的编码。对于这两种编码笔者就不介绍了，总之都是专门可以处理中文的编码方式啦。

我们首先对文本文件测试了gbk解码。我们发现，此编码下文本文件内容可以正常显示，但是使用utf8解码，程序出错，抛出decodeError异常

3

同样的，我们对Python脚本文件测试了utf8解码。我们发现，此编码下文本文件内容可以正常显示，但是使用gbk解码，中文部分出现乱码

4

测试说明，对于文本文件需要使用gbk解码，而对于脚本文件需要utf8解码，也就是说，文本文件是gbk编码的，而脚本则是utf8

END

解决法一：异常处理

我们从上面的编码测试发现，文本文件在使用utf8解码时会抛出异常，所以我们在代码中可以做如下处理——也就是在异常抛出时采用gbk解码

经过测试，发现程序可以满足两种文件正常显示

END

解决法二：文件类型

因为确定是这两种文件，所以可以直接判断文件类型选择对应解码了。经过测试，也成功了。

END

终极解法：chardet

chardet模块可以检测字符编码，应该说是类似问题的终极解决。先安装一下

通过下面代码测试一下两种文件的编码。我们看到，通过chardet模块返回的是一个字典。字典的前一个元素是编码检查的概率，后一个是编码类型

我们看到，文本文件的编码方式是GB2312，而我们上面使用gbk的解码也是可以的，那是因为gb2312是gbk的一个子集（GBK/1、GBK/2是GB2312区域）

现在我们修改一下最终的代码，把这个编码问题解决掉~

原文链接 https://jingyan.baidu.com/article/425e69e6e111a1be15fc1609.html
查看全文

相关阅读:
Javascript跨域后台设置拦截
 Hello ReactJS
Redis 常用监控信息命令总结
 MySQL架构与业务总结图
 MySQL垂直拆分和水平拆分的优缺点和共同点总结
 MySQL实用工具汇总
 MySQL查看数据库表容量大小
 MySQL到底能支持多大的数据量？
微信小程序wxss的background本地图片问题
 微信小程序中显示与隐藏(hidden)

原文地址：https://www.cnblogs.com/onemorepoint/p/7252806.html

Python | 多种编码文件（中文）乱码问题解决

编码测试

解决法一：异常处理

解决法二：文件类型

终极解法：chardet