zoukankan      html  css  js  c++  java
  • Python之令人心烦意乱的字符编码与转码

    ASC-II码:英文1个字节(8 byte),不支持中文;

    高大上的中国,扩展出自己的gbk、gb2312、gb2318等字符编码。 

    由于各个国家都有自己的编码,于是就需要统一的编码形式用于国际流传,防止乱码,就有了万国码;

    万国码:unicode(默认无论中文还是英文都是至少占用2个字节),为了解决占用字节变多,占用空间增倍的情况,又衍生了扩展集utf-8;

    UTF-8:原有的ASC-II码中内容仍用1个字节,欧洲国家的字符用2个字节,汉字等其他的字符用3个字节


    decode: 解码到unicode,encode: 将unicode编码到其他格式(如,utf-8,gbk等)

    日常中如果我们想要读取其他国家的代码时,先解码(decode)为万国码,再编码(encode)为我们适用的编码形式读取;

    比如:GBK到uff-8,先将GBK(decode)到 unicode,再(encode)到utf-8;

  • 相关阅读:
    爱上你的一百个理由 (网摘)
    梦想向右,沉默向左
    明夕何夕,君已陌路。
    不肯嫁的几种男人(转)
    一剪梅
    C# preprocessor Directives
    Language
    C# Language Tour
    Web application
    Unsafe code
  • 原文地址:https://www.cnblogs.com/feigebaqi/p/9138218.html
Copyright © 2011-2022 走看看