有关python编码的问题,一直以来都是十分头疼。
虽然看过不少编码方面的相关解释,但有时候还是有些莫名其妙。尤其是Windows下有时候会根据系统默认编码解析文本,进而显示在屏幕上。导致有时会出现奇怪的编码错误。
今天用脚本在写文件的时候,就总是弹出UnicodeEncodeError: 'gbk' codec can't encode character 'ufffd'的编码问题。
不清楚为什么数据库中数据日志会出现这种无法识别的编码。
有种说法是当从某语言向Unicode转化时,如果在某语言中没有该字符,得到的将是Unicode的代码“uffffd”。尝试了码池更广的GB2312依然无法解析,有点无从下手。
通过客户端查询显示是类似�的字符。感觉信息在数据库写入时错误已经发生了,原始数据就有问题。
既然无法解析,只好尝试去掉这个ufffd符号,辗转花费了不少功夫。
最后采用的方案是,通过str.encode()的replace选项将危险字符转为了?, 好歹能写入文本不再报错。
str(text).encode('gbk', 'replace').decode('utf8')
将不识别的编码转变为?字符。