zoukankan      html  css  js  c++  java
  • 如何查看字符编码?

    导入chardet模块,可以用命令安装

    pip install chardet

    希望通过一个案例能让你快速入门

    import chardet
    
    UTF8_TEXT="你好,世界".encode('utf-8')
    SJIS_TEXT="你好,世界".encode('GB2312')
    GBK_TEXT="你好,世界".encode('GBK')
    '''
    输出结果:
    {'encoding': 'utf-8', 'confidence': 0.9690625, 'language': ''}
    {'encoding': None, 'confidence': 0.0, 'language': None}
    {'encoding': None, 'confidence': 0.0, 'language': None}
    这是一个比较糟糕的问题,第一个有结果,另外两个没有结果,百度也不好百度,自己尝试了一下,发现原来内容不能不能输入一样的,改了皆可以输出结果了。
    
    '''
    '''
    UTF8_TEXT="你好,世界".encode('utf-8')
    SJIS_TEXT="哈哈哈".encode('GB2312')
    GBK_TEXT="中国加油!".encode('GBK')
    输出结果:
    {'encoding': 'utf-8', 'confidence': 0.9690625, 'language': ''}
    {'encoding': 'ISO-8859-1', 'confidence': 0.73, 'language': ''}
    {'encoding': 'KOI8-R', 'confidence': 0.40958385256619645, 'language': 'Russian'}
    
    '''
    
    
    def main():
        print(chardet.detect(UTF8_TEXT))
        print(chardet.detect(SJIS_TEXT))
        print(chardet.detect(GBK_TEXT))
    
    if __name__ == '__main__':
        main()
    
    '''
    detect函数返回值是一个字典,得到confidence (可信度)与encoding (字符
    编码)这一键值对。其中的可信度数値在0-1之向,越是接近1表明可以信頼的程
    度越高。
    '''
  • 相关阅读:
    redis-cluster的实例动态调整内存
    nginx upstream的五种分配方式
    cdn、回源等问题
    gpu机器安装nvidia-smi和python的tensorflow-gpu模块
    Hadoop、HBase、Spark单机安装
    数学的概念
    Eclipse 2020版安装&初始化
    191002一些岗位数量统计
    现象:SpringApplication.run后面的语句未执行
    Ubuntu 18.04安装docker
  • 原文地址:https://www.cnblogs.com/liangliangzz/p/10225850.html
Copyright © 2011-2022 走看看