zoukankan      html  css  js  c++  java
  • Python3中的编码问题

    编码方式介绍

    我们首先来熟悉一下常见的一些编码方式,按照时间轴来划分,共有以下几种编码方式(常见):

    • ASCII编码方式:对127个常见字符进行编码,其中包含了10个阿拉伯数字,共52个大小写英文字母。
    • GB2312编码方式:由中国提出,对常见的汉字进行了编码,并且兼容ASCII编码。
    • Unicode编码方式:国际统一字符编码,对所有的常见字符进行统一编码。
    • UTF-8编码方式:由Unicode引申出来的可变长编码方式。
      以上都是对字符编码的一些方式,目的就是为了显示、存储、传输的方便。

    如果我们按照编码的长度进行区分:

    • ASCII编码方式:1个byte
    • GB2312编码方式:若干byte
    • Unicode编码方式:若干byte,编码长度最长。
    • UTF-8编码方式:若干byte
      因为如果在存储或者是传输时使用Unicode编码,那样太浪费空间了,所以才推出一个可变长的UTF-8编码。这样既保证可以对所有的字符进行编码,又能合理利用空间。

    Python3的编码方式

    在Python3中,字符串str是用Unicode编码的。
    字符串str

    1. 在内存中是Unicode编码。
    2. 在进行网络传输或者是磁盘存储时,需要转化成字节码(bytes),这时就需要用以上几种编码方式进行编码(encode)了。

    因为英文字符只有一个字节,所以可以用ASCII编码。但是中文字符不止一个字节,所以要用UTF-8进行编码,当然英文同样可以用UTF-8进行编码。
    既然传输与存储对字符进行编码了,那我们将其读取到内存中时,就需要对其进行解码(decode)操作了,用什么编码,那么就用什么解码。逆向操作完之后,此时内存中就又是Unicode编码的字符了。

    Reference

  • 相关阅读:
    FileManager(文件管理类)
    XE6 IntraWeb.v14.0.32安装及破解指南
    在应收应付系统凭证做冲销后,如何取消冲销?
    delphi将图片保存到SQL数据库和读取图片
    去掉cxgrid 中的过滤下拉箭头
    CxGrid 分组以后自动排序了,可以禁止自动排序吗
    最简单解决CHM文件无法显示的办法
    用友T3、T6常见问题
    SQL2005还原数据库3154错误
    cxGrid 怎样才能让不自动换行 WordWrap:=false
  • 原文地址:https://www.cnblogs.com/yinzm/p/7650469.html
Copyright © 2011-2022 走看看