几种常见编码方式

zoukankan html css js c++ java

几种常见编码方式

在学习Python过程中接触到字符串类型str和bytes在bytes类型。计算机所有程序的计算都是用的str类型而在存储磁盘和网络传输中用的是bytes类型。

>>> s=s.encode("gbk")

>>> type(s)

<class 'bytes'>

电脑音痴的我百度了一下。

encode 用于编码，decode 用于解码。

原来"gbk"是一种编码形式。好吧。继续百度。有了初步的认识。

ASCII码：用来表示英文，它使用一个字节表示具体字符，其中第一位规定为0，其他7位存储数据，（2^7）一共可以表示128个字符。

扩展的ASCII码：由于欧洲国家的语言会有拼音存在所以用7位已经不能满足了所以一些欧洲国家决定利用闲置的最高位来表达更多的字符（2^8）所以有256个字符。

不过即使编码相同但是表示的字符也不同。

Unicode：简单来说是一个字符集。包含世界上所有字符。得益于互联网的发展。

GBK和GB2312,GB18030：GBK和GB2312都是简体中文编码。GB2312支持6千多汉字编码，GBK支持1万多汉字编码。GB18030是繁体中文编码。

UTF-8：UF-8是Unicode的实现方式之一，是互联网使用最为广泛的编码。用1-4个字节表示符号。根据不同字节长度变化不同符号。

继续...

ASCIIS码： 1个英文字母（不分大小写）= 1个字节的空间 1个中文汉字 = 2个字节的空间   1个ASCII码 = 一个字节

Unicode编码：1个英文字符 = 2个字节   英文标点 = 2个字节   1个中文（含繁体） = 2个字节   中文标点 = 2个字节

UTF-8编码：1个英文字符 = 1个字节   英文标点 = 1个字节   1个中文（含繁体） = 3个字节   中文标点 = 3个字节

继续补充中...

查看全文

相关阅读:
MongoDB开发应用实战
 throw 与 throws的应用
 JAVA异常
 【354】Numpy 相关函数应用
 【353】线性回归损失函数求导举例
 【352】矩阵转置性质
 【351】实数对向量求导公式及推导
 【350】机器学习中的线性代数之矩阵求导
 智能电视TV开发---客户端和服务器通信
 GPS两点的距离

原文地址：https://www.cnblogs.com/King-Tong/p/11431561.html