zoukankan      html  css  js  c++  java
  • Python之令人心烦意乱的字符编码与转码

    ASC-II码:英文1个字节(8 byte),不支持中文;

    高大上的中国,扩展出自己的gbk、gb2312、gb2318等字符编码。 

    由于各个国家都有自己的编码,于是就需要统一的编码形式用于国际流传,防止乱码,就有了万国码;

    万国码:unicode(默认无论中文还是英文都是至少占用2个字节),为了解决占用字节变多,占用空间增倍的情况,又衍生了扩展集utf-8;

    UTF-8:原有的ASC-II码中内容仍用1个字节,欧洲国家的字符用2个字节,汉字等其他的字符用3个字节


    decode: 解码到unicode,encode: 将unicode编码到其他格式(如,utf-8,gbk等)

    日常中如果我们想要读取其他国家的代码时,先解码(decode)为万国码,再编码(encode)为我们适用的编码形式读取;

    比如:GBK到uff-8,先将GBK(decode)到 unicode,再(encode)到utf-8;

  • 相关阅读:
    Socket 传送文件
    spring
    Hibernate学习笔记
    servlet之过滤器(转载)
    java 网络编程
    java 文件操作
    java 图形界面 邮件系统
    简易俄罗斯方块
    二叉树习题之重建二叉树
    将博客搬至CSDN
  • 原文地址:https://www.cnblogs.com/feigebaqi/p/9138218.html
Copyright © 2011-2022 走看看