zoukankan      html  css  js  c++  java
  • 字符编码与解码

    写在前面

    在web服务端开发中,字符的编解码几乎每天都要打交道。编解码一旦处理不当,就会出现令人头疼的乱码问题。

    不少从事node服务端开发的同学,由于对字符编码码相关知识了解不足,遇到问题时,经常会一筹莫展,花大量的时间在排查、解决问题。

    文本先对字符编解码的基础知识进行简单介绍,然后举例说明如何在node中进行编解码,最后是服务端的代码案例。本文相关代码示例可在这里找到。

    关于字符编解码

    在网络通信的过程中,传输的都是二进制的比特位,不管发送的内容是文本还是图片,采用的语言是中文还是英文。

    举个例子,客户端向服务端发送"你好"。

    客户端 --- 你好 ---> 服务端

    这中间包含了两个关键步骤,分别对应的是编码、解码。

    1.客户端:将"你好"这个字符串,编码成计算机网络需要的二进制比特位。

    2.服务端:将接收到的二进制比特位,解码成"你好"这个字符串。

    总结一下:

    1.编码:将需要传送的数据,转成对应的二进制比特位。

    2.解码:将二进制比特位,转成原始的数据。

    上面有些重要的技术细节没有提到,答案在下一小节。

    • 客户端怎么知道"你好"这个字符对应的比特位是多少?
    • 服务端收到二进制比特位之后,怎么知道对应的字符串是什么?

    关于字符集和字符编码

    上面提到字符、二进制的转换问题。既然两者可以互相转换,也就是说存在明确的转换规则,可以实现字符<->二进制的相互转换。

    这里提到的转换规则,其实就是我们经常听到的字符集&字符编码。

    字符集是一系列字符(文字、标点符号等)的集合。字符集有很多,常见的有ASCII、Unicode、GBK等。不同字符集主要的区别在于包含字符个数的不同。

    了解了字符集的概念后,接下来介绍下字符编码。

    字符集告诉我们支持哪些字符,但具体字符怎么编码,是由字符编码决定的。比如Unicode字符集,支持的字符编码有UTF8(常用)、UTF16、UTF32。

    概括一下:

    • 字符集:字符的集合,不同字符集包含的字符数不同。
    • 字符编码:字符集中字符的实际编码方式。
    • 一个字符集可能有多种字符编码方式。

    可以把字符编码看成一个映射表,客户端、服务端就是根据这个映射表,来实现字符跟二进制的编解码转换。

    举个例子,"你"这个字符,在UTF8编码中,占据三个字节0xe4 0xbd 0xa0,而在GBK编码中,占据两个字节0xc4 0xe3。

    字符编解码例子

    上面已经提到了字符编解码所需的基础知识。下面我们看一个简单的例子,这里借助了icon-lite这个库来帮助我们实现编解码的操作。

    可以看到,在字符编码时,我们采用了gbk。在解码时,如果同样采用gbk,可以得到原始的字符。而当我们解码时采用utf8时,则出现了乱码。

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    var iconv = require('iconv-lite');
     
    var oriText = '你';
     
    var encodedBuff = iconv.encode(oriText, 'gbk');
    console.log(encodedBuff);
    // <Buffer c4 e3>
     
    var decodedText = iconv.decode(encodedBuff, 'gbk');
    console.log(decodedText);
    // 你
     
    var wrongText = iconv.decode(encodedBuff, 'utf8');
    console.log(wrongText);
    // ��
  • 相关阅读:
    TeX系列: tikz-3dplot绘图宏包
    TeX系列: MATLAB和LaTeX结合绘图
    Tex系列: pgfplots安装
    C 标准库
    C 标准库
    C 标准库
    C 标准库
    C 标准库
    C 标准库
    C 标准库
  • 原文地址:https://www.cnblogs.com/justart/p/12377325.html
Copyright © 2011-2022 走看看