zoukankan      html  css  js  c++  java
  • (转载)UTF-8和GBK的编码方式的部分知识:重要

    GBK的文字编码是双字节来表示的,即不论中、英文字符均使用双字节来表示,只不过为区分中文,将其最高位都定成1。

    至于UTF-8编码则是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24位(三个字节)来编码。对于英文字符较多的网站则用UTF-8节省空间。

    GBK包含全部中文字符;

    UTF-8则包含全世界所有国家需要用到的字符。

    GBK是在国家标准GB2312基础上扩容后兼容GB2312的标准,UTF-8编码的文字可以在各国各种支持UTF8字符集的浏览器上显示。
    比如,如果是UTF8编码,则在外国人的英文IE上也能显示中文,而无需他们下载IE的中文语言支持包。 所以,对于英文比较多的论坛 ,使用GBK则每个字符占用2个字节,而使用UTF-8英文却只占一个字节。

    在java中

    byte[] default_encode="你好啊".getBytes();
    		
    		byte[] UTF_encode=null;
    		try {
    			UTF_encode=	"你好啊".getBytes("UTF-8");
    		} catch (UnsupportedEncodingException e) {
    			// TODO Auto-generated catch block
    			e.printStackTrace();
    		}
    		
    		System.out.println("default:"+default_encode.length+",utf8:"+UTF_encode.length);
    

     default_encode.length的值具有不确定型,它跟 "你好啊".getBytes() 采用的默认编码方式有关,默认编码方式是和.java文件的编码方式相同的.

    因此最好要得到字符串的二进制形式时最好指定编码方式,否则可能出现一个文件中正常,另一个文件中不正常。

     

  • 相关阅读:
    堆和栈的区别
    九度OJ 1108 堆栈的使用
    九度OJ 1201 二叉排序树
    jQuery笔记——基础知识
    JavaScript笔记——事件
    一些知识
    JavaScript笔记——BOM的操作和浏览器的检测
    JavaScript笔记——面向对象与原型
    JavaScript笔记——基础知识(二)
    JavaScript笔记——正则表达式
  • 原文地址:https://www.cnblogs.com/ribavnu/p/3437523.html
Copyright © 2011-2022 走看看