zoukankan      html  css  js  c++  java
  • ascii、unicode、utf-8、gbk 区别?

    发展史https://www.cnblogs.com/houxt/p/11250878.html
     

    python2内容进行编码(默认ascii),而python3对内容进行编码的默认为utf-8。

    ascii:
    最多只能用8位来表示(一个字节),即:2**8 = 256(即pow(2,8)=256),
    所以,ASCII码最多只能表示256个符号。
    unicode:
    万国码,任何一个字符==两个字节
    utf-8:
    万国码的升级版,一个中文字符==三个字节,英文是一个字节,欧洲的是2个字节
    gbk:
    国内版本,一个中文字符==2个字节,英文是一个字节
    gbk转utf-8,则需通过媒介unicode



    ascii

    A:00000010 8位 一个字节

    unicode

    A:00000000 00000001 00000010 00000100 32位 四个字节

    中:00000000 00000001 00000010 00000100 32位 四个字节

    utf-8

    A:00000110 8位 一个字节

    中:00000010 00000110 16位 两个字节

    gbk

    A:00000110 8位 一个字节

    中:00000010 00000110 16位 两个字节

    1,各个编码之间的二进制,是不能互相识别的,会产生乱码。

    2,文件的存储,传输,不能是unicode (只能是utf-8 utf-16 gbk gbk2312 ascii等)

    python3

      str  在内存中是Unicode编码。

        bytes类型

        对于英文:

          str:表现形式:s = 'alex'

             编码方式:010101010 unicode

         bytes:表现形式:s = b'alex'

              编码方式:000101010 utf-8 gbk。。。。

        对于中文:

           str:表现形式:s = '中国'

              编码方式:010101010 unicode

         bytes: 表现形式:s = b' xe91e91e01e21e31e32'

               编码方式:000101010 utf-8 gbk。。。。

     encode 编码,如何将 str ——> bytes

                         使用方法:  str.encode('utf-8')

     decode 解码,如何将 bytes——> str

                                 使用方法:  bytes.decode('utf-8')

  • 相关阅读:
    centos 7 端口
    linux yum
    linux RPM包管理
    linux 进程
    linux 显示系统执行的进程
    linux 任务调度
    linux 组管理
    linux 压缩和解压缩
    linux 文件目录类的指令 包含查找
    PHP指定字段的多维数组排序方法
  • 原文地址:https://www.cnblogs.com/Rivend/p/12043962.html
Copyright © 2011-2022 走看看