zoukankan      html  css  js  c++  java
  • java 中String编码和byte 解码总结——字节流和字符流

    1、InputStreamReader 是字节流通向字符流的桥梁:它使用指定的 charset 读取字节并将其解码为字符
    InputStreamReader(InputStream in, String charsetName)


    2、OutputStreamWriter 是字符流通向字节流的桥梁:可使用指定的 charset 将要写入流中的字符编码成字节。它使用的字符集可以由名称指定或显式给定,否则将接受平台默认的字符集。
    OutputStreamWriter(OutputStream out, String charsetName)

    3、String(byte[] bytes, Charset charset)
              通过使用指定的 charset解码指定的 byte数组,构造一个新的 String。

    4、byte[] getBytes(Charset charset)
              把JVM内存中unicode形式的String按encoding制定的编码,转成字节流
              使用给定的 charset 将此 String 编码到 byte 序列,并将结果存储到新的 byte 数组。

    5、URLEncoder。encode(String s, String enc)
           
            使用指定的编码机制将字符串转换为 application/x-www-form-urlencoded 格式。
            对 String 编码时,使用以下规则:

    字母数字字符 "a" 到 "z"、"A" 到 "Z" 和 "0" 到 "9" 保持不变。
    特殊字符 "."、"-"、"*" 和 "_" 保持不变。
    空格字符 " " 转换为一个加号 "+"。
    所有其他字符都是不安全的,因此首先使用一些编码机制将它们转换为一个或多个字节。然后每个字节用一个包含 3 个字符的字符串 "%xy" 表示,其中 xy 为该字节的两位十六进制表示形式。推荐的编码机制是 UTF-8。但是,出于兼容性考虑,如果未指定一种编码,则使用相应平台的默认编码。
    例如,使用 UTF-8 编码机制,字符串 "The string ü@foo-bar" 将转换为 "The+string+%C3%BC%40foo-bar",因为在 UTF-8 中,字符 ü 编码为两个字节,C3 (十六进制)和 BC (十六进制),字符 @ 编码为一个字节 40 (十六进制)。

    6、URLDecoder.decode(String s, String enc)

            使用指定的编码机制对 application/x-www-form-urlencoded 字符串解码。
    转换中使用以下规则:

    字母数字字符 "a" 到 "z"、"A" 到 "Z" 和 "0" 到 "9" 保持不变。
    特殊字符 "."、"-"、"*" 和 "_" 保持不变。
    加号 "+" 转换为空格字符 " "。
    将把 "%xy" 格式序列视为一个字节,其中 xy 为 8 位的两位十六进制表示形式。然后,所有连续包含一个或多个这些字节序列的子字符串,将被其编码可生成这些连续字节的字符所代替。可以指定对这些字符进行解码的编码机制,或者如果未指定的话,则使用平台的默认编码机制。
    该解码器处理非法字符串有两种可能的方法。一种方法是不管该非法字符,另一种方法是抛出 IllegalArgumentException 异常。解码器具体采用哪种方法取决于实现。




    案例:
    1.JVM内部的String,Char都是用unicode存储(没有任何编码),比如:
    "分"的unicode=20998(十进制)String=[20998],String中有1个char
    "分享"的unicode=20998,20139 (十进制)String=[20998,20139],String中有2个char
    无论系统编码是什么,"分"这个字在JVM中都是20998


    2.String.getBytes("encoding")的意思:
    把JVM内存中unicode形式的String按encoding制定的编码,转成字节流,比如汉字"分":
    String="分"
    String.getBytes("utf-8")//把String转成utf-8字节流,汉字"分"为3个字节[0xe5,0x88,0x86]

    String.getBytes("gbk")//把String转成gbk字节流,汉字"分"为2个字节[0xb7,0xd6]

    String.getBytes()//按JVM默认编码转成字节流。linux,如果LANG=en_US,就是iso8859-1,如果是windows eclipse就是UTF-8

    3.String std=new String(byte b[],"encoding")的意思
    把是encoding编码的字节流b,转换成String,比如:

    b=[0xe5,0x88,0x86]
    String std=new String(byte b[],"utf-8")//把utf-8的字节数组b,转成string。b中是3个字节的utf8编码。执行后string=[20998]

    b=[0xb7,0xd6]
    String std=new String(byte b[],"gbk")//把gbk的字节数组b,转成string。b中是2个字节的gbk编码。执行后string=[20998]


    4.在linux,LANG=en_US的环境下打印utf8的汉字:
    因为终端(secretCRT)只能认单字节流的utf8,若以直接打印utf8的多字节String就会是“???”
    需要把utf8的string转换成单字节流编码的iso8859-1,secretCRT才能按utf8显示成汉字,比如:
    s1="分"//s1中有一个char=[20998]
    String s2=new String(s1.getBytes("utf-8"),"iso8859-1")//获取utf-8编码的s1字节流,并编码成iso8859-1,s2中有三个char,分别是[0xe5,0x88,0x86]
    println(s2)//在utf8终端控制台上打印s2

    如果终端(secretCRT)的显示编码是default(其实就是iso8859-1能显示GBK),那执行以下代码:
    s1="分"//s1中有一个char=[20998]
    String s2=new String(s1.getBytes("gbk"),"iso8859-1")//获取gbk编码的s1字节流,并编码成iso8859-1,s2中有两个char,分别是[0xb7,0xd6]
    println(s2)//在gbk终端控制台上打印s2

    在windows上,因为eclipse控制台系统默认编码是utf8。所以直接打印就可以了

  • 相关阅读:
    1265 四点共面
    1298 圆与三角形
    1264 线段相交
    1185 威佐夫游戏 V2
    1183 编辑距离
    1089 最长回文子串
    HTML5 boilerplate 笔记(转)
    Grunt上手指南(转)
    RequireJS 2.0初探
    RequireJS学习笔记
  • 原文地址:https://www.cnblogs.com/JMLiu/p/6478833.html
Copyright © 2011-2022 走看看