zoukankan      html  css  js  c++  java
  • python字符编码

    字符编码的转换

    编码问题一直是个难以理解的问题,莫名其妙转换来转换去的,程序的结果就能正确输出,最后还是留出一点时间开始理解这个棘手的问题。

    python有两种字符串类型,str、unicode,这两者都是basestring的子类

    str是字节串,而unicode则是真正意义上的字符串

    str可以通过decode()函数转换成unicode;

    unicode可以通过encode()函数转换成str。

    unicode是支持所有文字的统一编码,但一般只用作文字的内部表示,文件、网页(也是文件)、屏幕输入输出等处均需使用具体的外在编码,如GBK、UTF-8等 

    unicode是一种二进制编码,所有的utf-8和gbk编码都得通过unicode编码进行转译,utf-8和gbk编码之间不能直接转换,要在unicode之间过个场才能转换。

    #假如我知道一串编码是用utf-8编写的,怎么转成gbk呢
    u = s.decode("utf-8") # 将utf-8的str转换为unicode
    g = u.encode('GBK') # 将unicode转换为str,编码为GBK
    #或
    s.decode('utf-8').encode('gbk')
    

     根据图形进行转换即可

    如何查看字符的编码格式?

    下载第三方模块chardet

    import chardet  
    s = '汉字'  
    print chardet.detect(s) 
    >>> {'confidence': 0.99, 'encoding': 'utf-8'} #chardet.detect()返回字典,其中confidence是检测精确度,encoding是编码形式

     

  • 相关阅读:
    缺失值的常见填充方法
    多变量线性回归
    回归(补充)
    单变量线性回归
    监督学习和非监督学习
    Java学习-数组(1)
    如何发布一个npm包(基于vue)
    《麦肯锡教给我的写作武器》摘录
    自定义博客样式
    ubuntu 下配置elasticSearch
  • 原文地址:https://www.cnblogs.com/evablogs/p/6727294.html
Copyright © 2011-2022 走看看