zoukankan      html  css  js  c++  java
  • 编码

    ASCII :由8个bit描述一个字节,不能装中文. 8个bit组成.最多有256种可能.  没有中文  1byte

    GBK:有中文. 16个bit => 2byte

    Unicode:万国码,32个bit =>4byte,目的是吧所有国家的文字都进行编码, 缺点 浪费

    UTF-8 : 可变长度的unicode 编码, 8的意思是一个字符最少8位

      英文: 8bit 1byte

      欧洲:16bit,2byte

      中文:24bit,3byte

    ASCII : 8bit  1byte

    GBK : 16 bit 2byte

    unicode : 32bit 4byte

    UTF-8 : 最少 8bit,1byte,中文24bit 3byte

    bit  位,计算机中最小的表示单位
    8bit = 1bytes 字节,最小的存储单位,1bytes缩写为1B
    1KB=1024B
    1MB=1024KB
    1GB=1024MB
    1TB=1024GB
    1PB=1024TB
    1EB=1024PB
    1ZB=1024EB
    1YB=1024ZB
    1BB=1024YB
     
     

    python2解释器在加载 .py 文件中的代码时,会对内容进行编码(默认ascill),而python3对内容进行编码的默认为utf-8。

    ASCII(American Standard Code for Information Interchange,美国标准信息交换代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言,其最多只能用 8 位来表示(一个字节),即:2**8 = 256,所以,ASCII码最多只能表示 256 个符号。

    Bin(二进制)
    Oct(八进制)
    Dec(十进制)
    Hex(十六进制)
    缩写/字符
    解释
    0000 0000
    0
    0
    00
    NUL(null)
    空字符
    0000 0001
    1
    1
    01
    SOH(start of headline)
    标题开始
    0000 0010
    2
    2
    02
    STX (start of text)
    正文开始
    0000 0011
    3
    3
    03
    ETX (end of text)
    正文结束
    0000 0100
    4
    4
    04
    EOT (end of transmission)
    传输结束
    0000 0101
    5
    5
    05
    ENQ (enquiry)
    请求
    0000 0110
    6
    6
    06
    ACK (acknowledge)
    收到通知
    0000 0111
    7
    7
    07
    BEL (bell)
    响铃
    0000 1000
    10
    8
    08
    BS (backspace)
    退格
    0000 1001
    11
    9
    09
    HT (horizontal tab)
    水平制表符
    0000 1010
    12
    10
    0A
    LF (NL line feed, new line)
    换行键
    0000 1011
    13
    11
    0B
    VT (vertical tab)
    垂直制表符
    0000 1100
    14
    12
    0C
    FF (NP form feed, new page)
    换页键
    0000 1101
    15
    13
    0D
    CR (carriage return)
    回车键
    0000 1110
    16
    14
    0E
    SO (shift out)
    不用切换
    0000 1111
    17
    15
    0F
    SI (shift in)
    启用切换
    0001 0000
    20
    16
    10
    DLE (data link escape)
    数据链路转义
    0001 0001
    21
    17
    11
    DC1 (device control 1)
    设备控制1
    0001 0010
    22
    18
    12
    DC2 (device control 2)
    设备控制2
    0001 0011
    23
    19
    13
    DC3 (device control 3)
    设备控制3
    0001 0100
    24
    20
    14
    DC4 (device control 4)
    设备控制4
    0001 0101
    25
    21
    15
    NAK (negative acknowledge)
    拒绝接收
    0001 0110
    26
    22
    16
    SYN (synchronous idle)
    同步空闲
    0001 0111
    27
    23
    17
    ETB (end of trans. block)
    结束传输块
    0001 1000
    30
    24
    18
    CAN (cancel)
    取消
    0001 1001
    31
    25
    19
    EM (end of medium)
    媒介结束
    0001 1010
    32
    26
    1A
    SUB (substitute)
    代替
    0001 1011
    33
    27
    1B
    ESC (escape)
    换码(溢出)
    0001 1100
    34
    28
    1C
    FS (file separator)
    文件分隔符
    0001 1101
    35
    29
    1D
    GS (group separator)
    分组符
    0001 1110
    36
    30
    1E
    RS (record separator)
    记录分隔符
    0001 1111
    37
    31
    1F
    US (unit separator)
    单元分隔符
    0010 0000
    40
    32
    20
    (space)
    空格
    0010 0001
    41
    33
    21
    !
    叹号
    0010 0010
    42
    34
    22
    "
    双引号
    0010 0011
    43
    35
    23
    #
    井号
    0010 0100
    44
    36
    24
    $
    美元符
    0010 0101
    45
    37
    25
    %
    百分号
    0010 0110
    46
    38
    26
    &
    和号
    0010 0111
    47
    39
    27
    '
    闭单引号
    0010 1000
    50
    40
    28
    (
    开括号
    0010 1001
    51
    41
    29
    )
    闭括号
    0010 1010
    52
    42
    2A
    *
    星号
    0010 1011
    53
    43
    2B
    +
    加号
    0010 1100
    54
    44
    2C
    ,
    逗号
    0010 1101
    55
    45
    2D
    -
    减号/破折号
    0010 1110
    56
    46
    2E
    .
    句号
    00101111
    57
    47
    2F
    /
    斜杠
    00110000
    60
    48
    30
    0
    数字0
    00110001
    61
    49
    31
    1
    数字1
    00110010
    62
    50
    32
    2
    数字2
    00110011
    63
    51
    33
    3
    数字3
    00110100
    64
    52
    34
    4
    数字4
    00110101
    65
    53
    35
    5
    数字5
    00110110
    66
    54
    36
    6
    数字6
    00110111
    67
    55
    37
    7
    数字7
    00111000
    70
    56
    38
    8
    数字8
    00111001
    71
    57
    39
    9
    数字9
    00111010
    72
    58
    3A
    :
    冒号
    00111011
    73
    59
    3B
    ;
    分号
    00111100
    74
    60
    3C
    <
    小于
    00111101
    75
    61
    3D
    =
    等号
    00111110
    76
    62
    3E
    >
    大于
    00111111
    77
    63
    3F
    ?
    问号
    01000000
    100
    64
    40
    @
    电子邮件符号
    01000001
    101
    65
    41
    A
    大写字母A 
    01000010
    102
    66
    42
    B
    大写字母B
    01000011
    103
    67
    43
    C
    大写字母C
    01000100
    104
    68
    44
    D
    大写字母D
    01000101
    105
    69
    45
    E
    大写字母E
    01000110
    106
    70
    46
    F
    大写字母F
    01000111
    107
    71
    47
    G
    大写字母G
    01001000
    110
    72
    48
    H
    大写字母H
    01001001
    111
    73
    49
    I
    大写字母I
    01001010
    112
    74
    4A
    J
    大写字母J
    01001011
    113
    75
    4B
    K
    大写字母K
    01001100
    114
    76
    4C
    L
    大写字母L
    01001101
    115
    77
    4D
    M
    大写字母M
    01001110
    116
    78
    4E
    N
    大写字母N
    01001111
    117
    79
    4F
    O
    大写字母O
    01010000
    120
    80
    50
    P
    大写字母P
    01010001
    121
    81
    51
    Q
    大写字母Q
    01010010
    122
    82
    52
    R
    大写字母R
    01010011
    123
    83
    53
    S
    大写字母S
    01010100
    124
    84
    54
    T
    大写字母T
    01010101
    125
    85
    55
    U
    大写字母U
    01010110
    126
    86
    56
    V
    大写字母V
    01010111
    127
    87
    57
    W
    大写字母W
    01011000
    130
    88
    58
    X
    大写字母X
    01011001
    131
    89
    59
    Y
    大写字母Y
    01011010
    132
    90
    5A
    Z
    大写字母Z
    01011011
    133
    91
    5B
    [
    开方括号
    01011100
    134
    92
    5C
    反斜杠
    01011101
    135
    93
    5D
    ]
    闭方括号
    01011110
    136
    94
    5E
    ^
    脱字符
    01011111
    137
    95
    5F
    _
    下划线
    01100000
    140
    96
    60
    `
    开单引号
    01100001
    141
    97
    61
    a
    小写字母a 
    01100010
    142
    98
    62
    b
    小写字母b
    01100011
    143
    99
    63
    c
    小写字母c
    01100100
    144
    100
    64
    d
    小写字母d
    01100101
    145
    101
    65
    e
    小写字母e
    01100110
    146
    102
    66
    f
    小写字母f
    01100111
    147
    103
    67
    g
    小写字母g
    01101000
    150
    104
    68
    h
    小写字母h
    01101001
    151
    105
    69
    i
    小写字母i
    01101010
    152
    106
    6A
    j
    小写字母j
    01101011
    153
    107
    6B
    k
    小写字母k
    01101100
    154
    108
    6C
    l
    小写字母l
    01101101
    155
    109
    6D
    m
    小写字母m
    01101110
    156
    110
    6E
    n
    小写字母n
    01101111
    157
    111
    6F
    o
    小写字母o
    01110000
    160
    112
    70
    p
    小写字母p
    01110001
    161
    113
    71
    q
    小写字母q
    01110010
    162
    114
    72
    r
    小写字母r
    01110011
    163
    115
    73
    s
    小写字母s
    01110100
    164
    116
    74
    t
    小写字母t
    01110101
    165
    117
    75
    u
    小写字母u
    01110110
    166
    118
    76
    v
    小写字母v
    01110111
    167
    119
    77
    w
    小写字母w
    01111000
    170
    120
    78
    x
    小写字母x
    01111001
    171
    121
    79
    y
    小写字母y
    01111010
    172
    122
    7A
    z
    小写字母z
    01111011
    173
    123
    7B
    {
    开花括号
    01111100
    174
    124
    7C
    |
    垂线
    01111101
    175
    125
    7D
    }
    闭花括号
    01111110
    176
    126
    7E
    ~
    波浪号
    01111111
    177
    127
    7F
    DEL (delete)
    删除

    显然ASCII码无法将世界上的各种文字和符号全部表示,所以,就需要新出一种可以代表所有字符和符号的编码,即:Unicode

    Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,规定虽有的字符和符号最少由 16 位来表示(2个字节),即:2 **16 = 65536,
    注:此处说的的是最少2个字节,可能更多

    UTF-8,是对Unicode编码的压缩和优化,他不再使用最少使用2个字节,而是将所有的字符和符号进行分类:ascii码中的内容用1个字节保存、欧洲的字符用2个字节保存,东亚的字符用3个字节保存...

    所以,python解释器在加载 .py 文件中的代码时,会对内容进行编码(默认ascill),如果是如下代码的话:

  • 相关阅读:
    [蓝桥杯] 练习系统-算法提高-ADV-292 【计算行列式】之10分钟AC Apare_xzc
    [洛谷] P1004 方格取数 Apare_xzc dp
    汤森路透 Thomson Reuters --使用多模型数据库ArangoDB 打造快速安全的简洁视图分析
    图数据库与关系数据库的实验对比——意大利商会 InfoCamere 案例
    尊重开源,且用且珍惜
    使用数据库创建的Flash 游戏- Pronto Move Shard
    NoSQL分布式数据库的独家见解- Adam Fowler
    融合RocksDB, Pregel, Fault-Tolerent Foxx & Satellite Collections 怎样使数据库性能提升35%?
    怎么用多模型数据库为复杂数据建模?--航空舰队实例
    动态数据源四种实现方案对比
  • 原文地址:https://www.cnblogs.com/liuye1990/p/9118576.html
Copyright © 2011-2022 走看看