zoukankan      html  css  js  c++  java
  • 字符、字节和编码

      摘要:介绍了字符与编码的发展过程,相关概念。举例Java实际应用中,编码的实现方法。最后,讲述了通常对字符与编码的几种误解,由于这些误解而导致乱码产生的原因,以及消除乱码的方法。

    1.编码问题的由来及相关概念

    1.1字符与编码的发展

      从计算机对多国语言的支持角度看,大致可以分为三个阶段:

      系统内码 说明 系统
    阶段一 ASCII 计算机刚开始只支持英语,其它语言不能够在计算机上存储和显示 英文DOS
    阶段二 ANSI编码(本地化)

    为使计算机支持更多语言,通常使用0x80~0xFF范围的2个字节来表示1个字符。比如:汉字‘中’在中文操作系统中,使用[0x06,0xD0]这两个字节存储。

    不同的国家和地区制定了不同的标准,由此产生了GB2312、BIG5、JIS等各自编码标准。这些使用2个字节来代表一个字节来代表一个字符的各种汉字延伸编码方式,成为ANSI编码。在简单中文系统下,ASNI编码代表GB2312编码,在日文操作系统下,ANSI编码代表JIS编码。

    不同ANSI编码之间互不兼容,当信息在国际间交流时,无法将属于两种语言的文字,存储在同一段ANSI编码的文本中。

    中文DOS,中文Windows95/98,日文Windows95/98
    阶段三 UNICODE(国际化) 为了使国际间信息交流更加方便,国际组织制定了UNICODE字符集,为各种语言中的每一个字符设定了统一并且唯一的数字编号,以满足跨语言、跨平台进行文本转换、处理的要求。 Windows NT/2000/XP,Linux,Java

    字符串在内存中的存放方法:

    在ASCII阶段,单字节字符串使用一个字节(SBCS)存放一个字符。比如‘Tom1988’在内存中为:

    44 6F 6D 31 39 38 38 00
    T o m 1 9 9 8

     在使用ANSI编码支持多种语言阶段,每个字符使用一个字节或多个字节(MBCS)来表示,因此,这种方式存放的字符也被称作为多字节字符。比如,"中文123"在中文Window 95内存中为7个字节,每个汉字占2个字节,每个英文和数字字符占1个字节:

    D6 D0 CE C4 31 32 33 00
    1 2 3

     在UNICODE被采用之后,计算机存放字符串时,改为存放每个字符在UNICODE字符集中的序号。目前计算机一般使用2个字节(DBCS,16位)存放一个序号,因此,这种方式存放的字符也被称作宽带字节符。比如,字符串"中文123"在Windows 2000下,内存中实际存放的是5个序号:一共占10个字节。

    2D 4E 87 65 31 00 32 00 33 00 00 00 <--在x86 CPU中,低字节在前
    1 2 3  

    1.2字符、字节和字符串

    理解编码的关键,是要把字符的概念和字节的概念理解准确。这两个概念容易混淆,我们在此做一下区别:

      概念描述 举例
    字符 人们使用的标号,抽象意义上的一个符号 '1','中','a','$'
    字节 计算机中存储数据的单元,一个8位的二进制数,是一个很具体的存储空间 0x01,0x45,0xFA
    ANSI字符串 在内存中,如果"字符"是以ANSI编码形式存在的,一个字符可能使用一个字节或多个字节来表示,那么我们称这种字符串为ANSI字符串或者多字节字符串 "中文123"(占7字节)
    UNICODE字符串 在内存中,如果"字符"是以在UNICODE中的序号存在的,那么我们称这种字符串为UNICODE字符串或者宽字节字符串 "中文123"(占10字节)

    由于不同ANSI编码所规定的标准是不相同的,因此,对于一个给定的多字节字符串,我们必须知道它采用的是哪一种编码规则,才能够知道它包含了哪些"字符"。而对于UNICODE字符串来说,不管在什么环境下,它所代表的"字符"内容总是不变的。

    1.3 字符集与编码

    各个国家和地区所制定的不同ANSI编码标准中,都只规定了各自语言所需要的"字符"。比如,汉字标准(GB2312)中没有规定韩国字符怎样存储。这些ANSI编码标准所规定的内容包含两层含义:

    • 使用那些字符。也就是说那些汉字、字母和符号会被收入标准中。所包含"字符"的集合就叫做"字符集"
    • 规定每个"字符"分别用一个字节还是多个字节存储,用那些字节存储,这个规定就叫做"编码"

    各个国家和地区在制定编码标准的时候,"字符的集合"和"编码"一般都是同时制定的。因此,平常我们所说的"字符集",比如:GB2312、GBK、JIS等,除了有"字符的集合"这层含义外,同时也包含了"编码"的含义。"UNICODE字符集"包含了各种语言中使用到的所有"字符"。用来给UNICODE字符集编码的标准有很多种,比如:UTF-8,UTF-7,UTF-16,UnicodeLittle,UnicodeBig等。

    1.4 常用的编程简介

    简单介绍一下常用的编码规则,为后边的章节做一个准备。在这里,我们根据编码规则的特点,把所有的编码分成三类:

    分类 编码标准 说明
    单字节字符编码 ISO-8859-1 最简单的编码规则,每一个字节直接作为一个UNICODE字符。比如,[0xD6,0xD0]这两个字节,通过ISO-8859-1转化为字符串时,将直接得到[0x00D6,0x00D0]两个UNICODE字符,即"ÖÐ"。反之,将UNICODE字符串通过ISO-8859-1转化为字符串时,只能正常转化0~255范围的字符。
    ANSI编码 GB2312,BIG5,Shift_JIS

    把UNICODE字符串通过ANSI编码转化为"字节串"时,根据各自编码的规定,一个UNICODE字符可能转化成一个字节或多个字节。反之,将字节串转化成字符串时,也可能多个字节转化成一个字符。比如,[0xD6,0xD0]这两个字节,通过GB2312转化为字符串,将得到[0x4E2D]一个字符串,即"中"字。

    "ANSI编码“的特点:

    1.这些"ANSI编码标准"都只能处理各自语言范围之内的UNICODE字符。

    2."UNICODE字符"与"转换出来的字节"之间的关系是人为规定的。

    UNICODE编码 UTF-8,UTF-16,UnicodeBig

    与"ANSI"编码类似的,把字符串通过UNICODE编码转化成"字节串"时,一个UNICODE字符可能转化成一个字节或多个字节。

    与"ANSI 编码"不同的是:

    1.这些"UNICODE 编码"能够处理所有的UNICODE字符。

    2."UNICODE字符"与"转换出来的字节"之间是可以通过计算得到的。

    2.字符与编码在程序中的实现

    Java中的char代表一个UNICODE字符(宽字节字符)

    类型或操作 字符 字节 ANSI字符串 UNICODE字符串 字节串->字符串 字符串->字节串
    Java char byte byte[] String string=new String(bytes,"encoding") bytes=string.getBytes("encoding")

    字符串类String中的内容是UNICODE字符串

    public class Test {
    
        public static void main(String[] args) {
            //Java代码直接写中文
            String string="中文123";
            //得到长度为5,因为是5个字符
            System.out.println(string.length());
        }
    }

    字符串I/O操作,字符与字节转换操作。在Java包java.io.*中,以"Stream"结尾的类一般是用来操作"字节串"的类。以"Reader","Writer"结尾的类一般是用来操作"字符串"的类。

    public class Test {
    
        public static void main(String[] args) throws IOException {
            //Java代码直接写中文
            String string="中文123";
            //得到长度为5,因为是5个字符
            System.out.println(string.length());
            byte[] bytes = null;
            
            try {
                //按照GB2312得到字节(得到多字节字符串)
                bytes=string.getBytes("GB2312");
                //从字节按照GB2312得到UNICODE字符串
                string=new String(bytes,"GB2312");
            } catch (UnsupportedEncodingException e) {
                // TODO Auto-generated catch block
                e.printStackTrace();
            }
            
            //要将String按照某种编码写入文本文件,有两种方法;
            //第一种方法:用stream类写入已经按照指定编码转化好的字符串
            try {
                OutputStream os=new FileOutputStream("D:\1.txt");
                os.write(bytes);
                os.close();
                
            } catch (FileNotFoundException e) {
                // TODO Auto-generated catch block
                e.printStackTrace();
            }
            //第二种办法,构造指定编码的Writer来写入字符串
            Writer ow=new OutputStreamWriter(new FileOutputStream("D:\2.txt"), "GB2312");
            ow.write(string);
            ow.close();
        }
    }

    3.几种误解,以及乱码产生的原因和解决方法

    3.1 容易产生的误解

      对编码的误解
    误解1

    在将"字符串"转化为"UNICODE字符串"时,比如在读取文本文件时,或者通过网络传输文本时,容易将"字节串"简单地作为单字节字符串,采用"一个字节"就是"一个字符"的方法进行转化。

    而实际上,在非英语的环境中,应该将"字节串"作为ANSI字符串,采用适当的编码来得到UNICODE字符串,有可能"多个字节"才能得到"一个字符"。通常,一直在英语环境下做开发的程序员们,容易有这种误解。

    误解2 在DOS,Windows98等非UNICODE环境下,字符串都是以ANSI编码的字节形式存在的。这种以字节形式存在的字符串,必须知道是那种编码才能被正确地使用。这使我们形成一个惯性思维:"字符串的编码"。当UNICODE被支持后Java中的String是以字符的"符号"来存储的不是以"某种编码的字节"来存储的因此已经不存在"字符串的编码"这个概念了。只有在"字符串"与"字节串"转化时,或者,将一个"字节串"当成一个ANSI字符串时,才有编码的概念。不少人都有这个误解

    第一种:误解,往往导致乱码产生的原因。第二种误解,往往导致本来容易纠正的乱码问题变得更复杂。在这里,我们可以看到,其中所讲的"误解1",即采用没"一个字节"就是"一个字符"的转化方法,实际上也就等同于采用ISO-8859-1进行转化。因此,我们常常使用bytes=string.getBytes("ISO-8859-1")来进行逆向操作,得到原始的"字符串"。然后再使用正确的ANSI编码,比如string=new String(bytes,"GB2312"),来得到正确的"UNICODE字符串"。

    3.2 非UNICODE程序在不同语言环境间移植的乱码

      非UNICODE程序中的字符串,都是以某种ANSI编码形式存在的。如果程序运行时的语言环境与开发的语言环境不同,将会导致ANSI字符串的显示失败。比如,在日文环境下开发的非UNICODE的日文程序界面,拿到中文环境下运行时,界面上将显示乱码。如果这个日文程序界面改为采用UNICODE来记录字符串,那么当在中文环境下运行时,界面上将可以显示正常的日文。

    3.3 几种错误理解的纠正

    误解:"ISO-8859-1"是国际编码?

    错误,ISO-8859-1只是单字节字符集中最简单的一种,也就是"字节编号"与"UNICODE字符编号"一致的那种编码规则。当我们要把一个"字节串"转化"字符串",而不知道它是那一种ANSI编码时,先暂时地把"每一个字节"作为"一个字符"进行转化,不会造成信息丢失。然后在使用bytes=string.getBytes("ISO-8859-1")的方法可以恢复到原始的字符串。

    误解:Java中,怎样知道某个字符串的内码?

    Java中吧,字符串类java.lang.String处理的是UNICODE字符串,不是ANSI字符串。我们只需要把字符串作为"抽象的符号的串"。因此不存在字符串的内码的问题。

    参考文章:

     http://www.cnblogs.com/fanrsh/archive/2007/05/26/761181.html

  • 相关阅读:
    css介绍与引入
    [K/3Cloud] 单据转换插件执行顺序
    [K/3Cloud] 如何设置设置单据分录中的整列的精度
    [K/3Cloud] 单据新增、复制、新增行、复制行的过程
    [K/3Cloud] 代码中设置某个字段必录
    [K/3Cloud] 创建一个业务单据表单插件
    [K/3Cloud] 创建一个单据转换插件
    [K/3Cloud] 创建一个操作校验器
    [K3Cloud] QueryService使用注意事项
    [K/3Cloud] 树形单据体的应用说明
  • 原文地址:https://www.cnblogs.com/chuji1988/p/4071924.html
Copyright © 2011-2022 走看看