zoukankan html css js c++ java

python 中文乱码解决方案

python 处理文字内容时，常常遇到编码的问题。

汉字常用的两种编码方式为 utf8 和 gbk，解析一个 txt 文件或者一个字符串时经常会遇到编码问题。

对于一行文本，我们分别尝试用 utf8 或者 gbk 去解码，哪一个解码内容多选择哪一个

def force_decode(string:bytes) ->str:
    """
    sometimes neither gbk nor gbk can decode succseefully from string
    select longger decode result from utf8 or gbk
    """
    if not isinstance(string, bytes):
        raise ValueError('expected bytes array')
    decode_chars_count = []
    for i in ['utf8', 'gbk']:
        try:
            return string.decode(i)
        except UnicodeDecodeError as ex:
            decode_chars_count.append(ex.start)
    # neither utf8 or gbk decode successfully
    # select the longer decode one
    utf8_len, gbk_len = decode_chars_count
    selected_encoding = 'utf8' if utf8_len > gbk_len else 'gbk'
    return string.decode(selected_encoding, errors='ignore')

代码链接：https://gist.github.com/albertofwb/b53bf32adca5c245c6dee6642ca5463d

查看全文

相关阅读:
关于EKT相关知识（类的反射）
关于EKT的相关知识（类加载）
jsoup中selector的用法及作用
 xml相关的Dom解析
 Jsoup的快速入门
 java.sql.SQLException: Column count doesn't match value count at row 1
JAVA调用存储过程、存储函数
 注解的使用场景-反射与知识点
 JDK1.5新特性
 在JDK中,主要由以下类来实现Java反射机制

原文地址：https://www.cnblogs.com/albertofwb/p/13188372.html