zoukankan      html  css  js  c++  java
  • 编码转换

    1. python2中默认使用的是ASCII码. 所以不支持中文. 如果需要在Python2中更改编码. 需要在文件的开始编写:

    # -*- encoding : utf-8 -*-

    编码回顾:

    1. ASCII : 最早的编码. 里面有英文大写字母, 小写字⺟, 数字, ⼀些特殊字符. 没有中文, 8个01代码, 8个bit, 1个byte

    2. GBK: 中文国标码, 里面包含了ASCII编码和中文常用编码. 16个bit, 2个byte

    3. UNICODE: 万国码, 里面包含了全世界所有国家文字的编码. 32个bit, 4个byte, 包含了 ASCII

    4. UTF-8: 可变长度的万国码. 是unicode的一种实现.  最小字符占8位 

           1.英文: 8bit  1byte           

        2.欧洲文字:16bit 2byte           

        3.中文:24bit 3byte

    综上, 除了ASCII码以外, 其他信息不能直接转换.

    在python3的内存中. 在程序运行阶段. 使用的是unicode编码. 因为unicode是万国码. 什么内容都可以进行显示. 那么在数据传输和存储的时候由于unicode比较浪费空间和资源. 需要把 unicode转存成UTF-8或者GBK进行存储. 怎么转换呢. 在python中可以把文字信息进行编码. 编码之后的内容就可以进行传输了. 编码之后的数据是bytes类型的数据.其实啊. 还是原来的 数据只是经过编码之后表现形式发生了改变而已.

    bytes的表现形式:

    1. 英文 b'alex' 英文的表现形式和字符串没什么两样

    2. 中文 b'xe4xb8xad' 这是一个汉字的UTF-8的bytes表现形式

    字符串在传输时转化成bytes=> encode(字符集)来完成

    记住: 英文编码之后的结果和源字符串一致.  中文编码之后的结果根据编码的不同. 编码结果 也不同. 我们能看到. 一个中文的UTF-8编码是3个字节. ⼀一个GBK的中文编码是2个字节. 编码之后的类型就是bytes类型.  在网络传输和存储的时候我们python是保存和存储的bytes类型. 那么在对方接收的时候. 也是接收的bytes类型的数据. 我们可以使用decode()来进行解码操作. 把bytes类型的数据还原回我们熟悉的字符串: 

    编码和解码的时候都需要制定编码格式. 

  • 相关阅读:
    Python 十七天 成员
    python学习17——字典。
    python学习16——列表。
    python学习15——Random。
    python学习14——分支和函数。
    python学习13——while循环。
    python学习12——循环和列表
    python学习8——整理第一部分。
    Flask HTTP请求与响应
    Falsk 路由简析
  • 原文地址:https://www.cnblogs.com/beihan/p/9289810.html
Copyright © 2011-2022 走看看