字符编码小知识

zoukankan html css js c++ java

字符编码小知识
参考：https://www.cnblogs.com/zihe/p/6993891.html

ASCII:一个Bytes代表一个字符（英文字符/键盘上的所有其他字符），1Bytes=8bit，8bit可以表示0-2**8-1种变化，即可以表示256个字符

　　　　ASCII最初只用了后七位，127个数字，已经完全能够代表键盘上所有的字符了（英文字符/键盘的所有其他字符）

　　　　后来为了将拉丁文也编码进了ASCII表，将最高位也占用了

GBK:2Bytes代表一个字符

unicode：各国有各国的标准，就会不可避免地出现冲突，结果就是，在多语言混合的文本中，显示出来会有乱码。

　　　　于是产生了unicode，　统一用2Bytes代表一个字符，　2**16-1=65535，可代表6万多个字符，因而兼容万国语言

　　　　但对于通篇都是英文的文本来说，这种编码方式无疑是多了一倍的存储空间（二进制最终都是以电或者磁的方式存储到存储介质中的）

　　　　于是产生了UTF-8，对英文字符只用 1Bytes 表示，对中文字符用 3Bytes

需要强调的一点是：

unicode：简单粗暴，所有字符都是2Bytes，优点是字符->数字的转换速度快，缺点是占用空间大

utf-8：精准，对不同的字符用不同的长度表示，优点是节省空间，缺点是：字符->数字的转换速度慢，因为每次都需要计算出字符需要多长的Bytes才能够准确表示
1. 内存中使用的编码是unicode，用空间换时间（程序都需要加载到内存才能运行，因而内存应该是尽可能的保证快）
2. 硬盘中或者网络传输用utf-8，网络I/O延迟或磁盘I/O延迟要远大与utf-8的转换延迟，而且I/O应该是尽可能地节省带宽，保证数据传输的稳定性。
查看全文

相关阅读:
ioremap函数
 kmalloc、kzalloc和vmalloc
C语言 snprintf函数
 C语言 memset函数
 消息队列
 mount -a
linux系统查看服务状态和启动停止服务
 Java中创建对象的内存图
 Java中数组在内存中的图解
 socket编程（Java实现）

原文地址：https://www.cnblogs.com/one-tom/p/10580476.html

热门文章
java
java
java
java
java
java
java
sscanf函数
 main函数参数
 copy_from_user和copy_to_user