zoukankan html css js c++ java

字符编码与解码

写在前面

在web服务端开发中，字符的编解码几乎每天都要打交道。编解码一旦处理不当，就会出现令人头疼的乱码问题。

不少从事node服务端开发的同学，由于对字符编码码相关知识了解不足，遇到问题时，经常会一筹莫展，花大量的时间在排查、解决问题。

文本先对字符编解码的基础知识进行简单介绍，然后举例说明如何在node中进行编解码，最后是服务端的代码案例。本文相关代码示例可在这里找到。

关于字符编解码

在网络通信的过程中，传输的都是二进制的比特位，不管发送的内容是文本还是图片，采用的语言是中文还是英文。

举个例子，客户端向服务端发送"你好"。

客户端 --- 你好 ---> 服务端

这中间包含了两个关键步骤，分别对应的是编码、解码。

1.客户端：将"你好"这个字符串，编码成计算机网络需要的二进制比特位。

2.服务端：将接收到的二进制比特位，解码成"你好"这个字符串。

总结一下：

1.编码：将需要传送的数据，转成对应的二进制比特位。

2.解码：将二进制比特位，转成原始的数据。

上面有些重要的技术细节没有提到，答案在下一小节。

客户端怎么知道"你好"这个字符对应的比特位是多少？
服务端收到二进制比特位之后，怎么知道对应的字符串是什么？

关于字符集和字符编码

上面提到字符、二进制的转换问题。既然两者可以互相转换，也就是说存在明确的转换规则，可以实现字符<->二进制的相互转换。

这里提到的转换规则，其实就是我们经常听到的字符集&字符编码。

字符集是一系列字符（文字、标点符号等）的集合。字符集有很多，常见的有ASCII、Unicode、GBK等。不同字符集主要的区别在于包含字符个数的不同。

了解了字符集的概念后，接下来介绍下字符编码。

字符集告诉我们支持哪些字符，但具体字符怎么编码，是由字符编码决定的。比如Unicode字符集，支持的字符编码有UTF8(常用)、UTF16、UTF32。

概括一下：

字符集：字符的集合，不同字符集包含的字符数不同。
字符编码：字符集中字符的实际编码方式。
一个字符集可能有多种字符编码方式。

可以把字符编码看成一个映射表，客户端、服务端就是根据这个映射表，来实现字符跟二进制的编解码转换。

举个例子，"你"这个字符，在UTF8编码中，占据三个字节0xe4 0xbd 0xa0，而在GBK编码中，占据两个字节0xc4 0xe3。

字符编解码例子

上面已经提到了字符编解码所需的基础知识。下面我们看一个简单的例子，这里借助了icon-lite这个库来帮助我们实现编解码的操作。

可以看到，在字符编码时，我们采用了gbk。在解码时，如果同样采用gbk，可以得到原始的字符。而当我们解码时采用utf8时，则出现了乱码。

var iconv = require('iconv-lite');
 
var oriText = '你';
 
var encodedBuff = iconv.encode(oriText, 'gbk');
console.log(encodedBuff);
// <Buffer c4 e3>
 
var decodedText = iconv.decode(encodedBuff, 'gbk');
console.log(decodedText);
// 你
 
var wrongText = iconv.decode(encodedBuff, 'utf8');
console.log(wrongText);
// ��

查看全文

相关阅读:
SpringBoot与quartz集成
 SpringBoot 中使用 @Valid 注解 + Exception 全局处理器优雅处理参数验证
 搭建Redis集群和MySQL主从同步
 scanf_s读取键盘输入字符串失败
 含有通配符*的字符匹配（C语言）
人之患
 TCP socket编程记录（C语言）
程序变量命名规范（个人）
h lib dll文件相关部分
 关于inet_ntop、inet_pton中的n和p分别代表的意义

原文地址：https://www.cnblogs.com/justart/p/12377325.html