zoukankan      html  css  js  c++  java
  • 用java程序将GBK字符转成UTF8编码格式(转)

    UTF-8 编码是一种被广泛应用的编码,这种编码致力于把全球的语言纳入一个统一的编码,
    目前已经将几种亚洲语言纳入。UTF 代表 UCS Transformation Format.
    UTF-8 采用变长度字节来表示字符,理论上最多可以到 6 个字节长度。
    UTF-8 编码兼容了 ASC II(0-127), 也就是说 UTF-8 对于 ASC II 字符的编码是和 ASC II 一样的。
    对于超过一个字节长度的字符,才用以下编码规范:
    左边第一个字节1的个数表示这个字符编码字节的位数,
    例如
    单字节编码样式为:0xxxxxxx
    两位字节字符编码样式为:110xxxxx 10xxxxxx;
    三位字节字符的编码样式为:1110xxxx 10xxxxxx 10xxxxxx.;
    以此类推,六位字节字符的编码样式为:1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx。
     
    xxx 的值由字符编码的二进制表示的位填入。只用最短的那个足够表达一个字符编码的多字节串。
    实际表示ASCII字符的UNICODE字符,将会编码成1个字节,并且UTF-8表示与ASCII字符表示是一样的。所有其他的UNCODE字符转化成UTF-8将需要至少2个字节。每个字节由一个换码序列开始。第一个字节由唯一的换码序列,由n位1加一位0组成。n位1表示字符编码所需的字节数。
    UTF-8每个编码字符都不可能以“10”开头,“10”是以连接符的形式出现在后面的编码字节开头。因此UTF-8编码在存储和传输时是不容易出错的。
    例如:
    Unicode 字符: 00 A9(版权符号) = 1010 1001,
    UTF-8 编码为:11000010 10101001 = 0x C2 0xA9;
    字符 22 60 (不等于符号) = 0010 0010 0110 0000,
    UTF-8 编码为:11100010 10001001 10100000 = 0xE2 0x89 0xA0
     
    package com.lang.string;


    public class ConverFromGBKToUTF8 {
     public static void main(String[] args){
     
      try {
      
             ConverFromGBKToUTF8 convert = new ConverFromGBKToUTF8();
             byte [] fullByte = convert.gbk2utf8(chenese);
             String fullStr = new String(fullByte, "UTF-8");
             System.out.println("string from GBK to UTF-8 byte:  " + fullStr);


         } catch (Exception e) {
          e.printStackTrace();
         }
     }
     
     public byte[] gbk2utf8(String chenese){
      char c[] = chenese.toCharArray();
            byte [] fullByte =new byte[3*c.length];
            for(int i=0; i<c.length; i++){
             int m = (int)c[i];
             String word = Integer.toBinaryString(m);
    //         System.out.println(word);
            
             StringBuffer sb = new StringBuffer();
             int len = 16 - word.length();
             //补零
             for(int j=0; j<len; j++){
              sb.append("0");
             }
             sb.append(word);
             sb.insert(0, "1110");
             sb.insert(8, "10");
             sb.insert(16, "10");
            
    //         System.out.println(sb.toString());
            
             String s1 = sb.substring(0, 8);         
             String s2 = sb.substring(8, 16);         
             String s3 = sb.substring(16);
            
             byte b0 = Integer.valueOf(s1, 2).byteValue();
             byte b1 = Integer.valueOf(s2, 2).byteValue();
             byte b2 = Integer.valueOf(s3, 2).byteValue();
             byte[] bf = new byte[3];
             bf[0] = b0;
             fullByte[i*3] = bf[0];
             bf[1] = b1;
             fullByte[i*3+1] = bf[1];
             bf[2] = b2;
             fullByte[i*3+2] = bf[2];
            
            }
            return fullByte;
     }
    }


    UTF-8的编码原理和特性:


    U+0000~U+007E 1 _ _ _ _ _ _ _ (7bits)

    U+0080~U+07FF 1 1 0_ _ _ _ _ 1 0_ _ _ _ _ _ (11bits)

    U+0800~U+FFFF 1 1 1 0 _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _ (16bits)

  • 相关阅读:
    is quoted with ["] which must be escaped when used within the value
    QueryDSL与SpringDataJPA复杂查询
    遍历list,同时remove不符合条件的元素
    解决AnnotationTransactionAttributeSource is only available on Java 1.5 and highe
    Windows系统安装MySQL
    sqlyog导sql文件
    myeclipse导入maven项目
    Invalid 'log4jConfigLocation' parameter: class path resource [log4j.xml] cannot be resolved to URL because it does not exist
    Nginx SSL+tomcat集群,取不到https正确协议
    微信开发之通过代理调试本地项目
  • 原文地址:https://www.cnblogs.com/Fskjb/p/1551732.html
Copyright © 2011-2022 走看看