文件的编码
编码
概念:规定每个“字符”采用一个字节还是多个字节来存储以及用哪些字节来存储。(通俗的说就是把“字符”转化成“字节”)
扫盲区:
- 位:(bit)
- 这里说的位就是指的二进制位了,也就是说的0或者1。他们都可以表示一位
- 字节:(byte)
- 计算机存储数据的一个单位
- 组成:由8个0或1组成也就是我们所谓的一个byte(字节)
- 实际上在Java中,byte就是一个0-255之间的整数
- 举个栗子:0x01, 0x45, 0xFA,.....
- 字符:
- 人们所使用的记号,抽象意义上的一个符号。
- 通俗的说就是我们平时看到的一切字母、符号、中文、法文、日文等等。c是个字符、中也是个字符。
- 一个字符的大小(也就是其所占的二进制位)是由编码规则决定的,
- 举个栗子:1', '中', 'a', '$', '¥', ……
要知道的:在计算机内部采用的是二进制进行存储,但是作为人呢,自然有自己的语言。因此为了让计算机能够看能我们的语言,就要采用一定的编码然后在发给计算机;计算机如果想要将信息呈现给我们看就要进行相应的解码。
- 字符-->字节(编码)encode
- 字节-->字符(解码)decode
字符集
定义: 将我们使用的字母、汉字、符号收入标准中;相当于一本大字典,这个字典里面有常用的字符相对应的二进制码。
“字符集”和“编码”一般都是同时制定的。因此,平常我们所说的“字符集”,比如:ISO-8859-1、UTF-8、GB2312, GBK, JIS 等,除了有“字符的集合”这层含义外,同时也包含了“编码”的含义。
编码格式 | 英文字符(所占字节数) | 汉字(所占字节数) |
---|---|---|
ISO-8859-1 | 1 | 1 |
ASCII | 1 | 2 |
GBK | 1 | 2 |
GB2312 | 1 | 2 |
UTF-8 | 1 | 3/4 |
UTF-16 | 4 | 2/4 |
字符编码发展
系统内码 | 编码标准 | 说明 | 系统 | |
---|---|---|---|---|
阶段一 | ASII | ISO-8859-1 | 胚胎级别的编码方式(最原始的啦)只支持英语,其它语言不能够在计算机上存储和显示 | DOS |
阶段二 | ANSI | GB2312,GBK, JISGB2312,BIG5,Shift_JIS, | 为使计算机支持更多语言,通常使用 0x80~0xFF 范围的 2 个字节来表示 1 个字符。比如:汉字 '中' 在中文操作系统中,使用 [0xD6,0xD0] 这两个字节存储。不同的国家和地区制定了不同的标准,由此产生了等各自的编码标准。这些使用 2 个字节来代表一个字符的各种汉字延伸编码方式,称为 ANSI 编码。在简体中文系统下,ANSI 编码代表 GB2312 编码,在日文操作系统下,ANSI 编码代表 JIS 编码 | 中文 DOS,中文 Windows 95/98,日文 Windows 95/98 |
阶段三 | UNICODE(国际化) | UTF-8,UTF-16, UnicodeBig …… | 为了使国际间信息交流更加方便,国际组织制定了 UNICODE 字符集,为各种语言中的每一个字符设定了统一并且唯一的数字编号,以满足跨语言、跨平台进行文本转换、处理的要求。 | Windows NT/2000/XP,Linux,Java |
常用的字符编码简介
-
ASCII(1字母1字节占8位)
问题:计算机只识别0或1,不识别符号
解决:既然不识别那就造一个”字典“给翻译成二进制代码。由于这个法子是美国人想到的所以计算机刚开始只支持英语,其它语言不能够在计算机上存储和显示。一个字母需要一个字节表示,也就是说占8位。这样的话有256种0和1的组合方式,可以表示256个不同的字母。对于,英文而言就绰绰有余了。
-
GB2312(1字母1字节;1汉字2字节)
问题:显然,美国人在设计ASCII码的时候没有考虑到遥远的东方,存在博大精深的文化。新华字典里面的汉字有多少个?显然256是远远不够的!那平方呢?65535?够了吧?还不够?
解决:于是就发明了GB2312这些汉字编码,典型的用2个字节来表示绝大部分的常用汉字,英文还是和ASCII保持一致占一个字节。
-
UNICODE(1字符多字节取决于编码格式)
问题:这下各用各的字符集编码,这世界咋统一?俄国人发封email给中国人,两边字符集编码不同,尼玛显示都是乱码啊。
解决:于是就发明了unicode,将世界上所有的符号都纳入其中,每一个符号都给予一个独一无二的编码,现在unicode可以容纳100多万个符号,每个符号的编码都不一样,这下可统一了,所有语言都可以互通,一个网页页面里可以同时显示各国文字。
这里就说到一个网络上经常出现的一个问题,UNICODE编码里面,一个汉字占几位的问题。很多老程序员会这么说:“一个汉字占两个字节!其实,很多时候,汉字占几个自己完全取决于编码格式。编码格式也不难写,因此对于汉字的编码有多种说法:ubuntu12.04里面一个汉字是三个字节!就是说,在unicode编码下,一个汉字可能是2个字节,也可能是3个或者是4个字节。“UNICODE 字符集”包含了各种语言中使用到的所有“字符”。用来给 UNICODE 字符集编码的标准有很多种,比如:UTF-8, UTF-7, UTF-16, UnicodeLittle, UnicodeBig 等。
-
utf8(1字母1字节;1汉字1-4字节)
问题:unicode虽然统一了全世界字符的二进制编码,但没有规定如何存储啊,亲。x86和amd体系结构的电脑小端序和大端序都分不清,别提计算机如何识别到底是unicode还是acsii了。如果Unicode统一规定,每个符号用三个或四个字节表示,那么每个英文字母前都必然有二到三个字节是0,文本文件的大小会因此大出二三倍,这对于存储来说是极大的浪费。这样导致一个后果:出现了Unicode的多种存储方式。
解决:即UTF-8不是固定字长编码的,而是一种变长的编码方式。它可以使用1~4个字节表示一个符号(注意”符号“中英文都有可能),根据不同的符号而变化字节长度。这是种比较巧妙的设计,如果一个字节的第一位是0,则这个字节单独就是一个字符;如果第一位是1,则连续有多少个1,就表示当前字符占用多少个字节。因此在utf8编码格式下,英文字母占一个字节,和ascii完全相同。汉字或者是其他字符占1-4个字节。
练习
/**
*
*@描述:字符的编码(字符-->字节)
* @param args
* @throws UnsupportedEncodingException
*/
public static void main(String[] args) throws UnsupportedEncodingException {
String msg = "相信自己";
//默认的是使用工程的编码格式
byte[] datas = msg.getBytes();
System.out.println(datas.length);
//将msg按照指定的字符集进行编码
byte[] datas1 = null;
datas1 = msg.getBytes("UTF-8");
System.out.println(datas1.length);
}
/**
*
* @描述:解码(字节-->字符)
*
* String(byte[] bytes)
通过使用平台的默认字符集解码指定的字节数组来构造新的 String 。
String(byte[] bytes, Charset charset)
构造一个新的String由指定用指定的字节的数组解码charset 。
String(byte[] bytes, int offset, int length)
通过使用平台的默认字符集解码指定的字节子阵列来构造新的 String 。
String(byte[] bytes, int offset, int length, Charset charset)
构造一个新的String通过使用指定的指定字节子阵列解码charset 。
String(byte[] bytes, int offset, int length, String charsetName)
构造一个新的 String通过使用指定的字符集解码指定的字节子阵列。
String(byte[] bytes, String charsetName)
构造一个新的String由指定用指定的字节的数组解码charset 。
*/
public class contentDecode {
public static void main(String[] args) throws UnsupportedEncodingException {
String msg = "相信自己!";
//使用utf-8进行编码
byte[] datas = msg.getBytes("utf-8");
System.out.println("utf-8编码后的结果:"+datas);
//使用utf-8进行解码
String info = new String(datas,"utf-8");
System.out.println("utf-8解码后的结果:"+info);
String info1 = new String(datas,"iso-8859-1");
System.out.println("iso-8859-1解码后的结果:"+info1);
System.out.println(datas.length);
String info2 = new String(datas,0,datas.length-3,"utf-8");
System.out.println(info2);
}
}