getBytes()详解 - 走看看

zoukankan html css js c++ java

getBytes()详解
在java中，getBytes()方法如果不指定字符集，则得到的是一个操作系统默认的编码格式的字节数组；如果指定字符集，则得到的是在指定字符集下的字节数组，如：
byte[] b_gbk = "中".getBytes("gbk"); byte[] b_utf8 = "中".getBytes("utf-8"); byte[] b_iso88591 = "中".getBytes("iso-8859-1");
将返回"中"这个汉字分别在gbk、utf-8、iso-8859-1编码下的字节数组表示，此时b_gbk的长度为2，b_utf8的长度为3，b_iso88591的长度为1。

与getBytes()方法相反，可以通过new String(byte[], charsetName)方法用指定的字符集来还原这个"中"字，如：
String s_gbk = new String(b_gbk, "gbk"); String s_utf8 = new String(b_utf8, "utf-8"); String s_iso88591 = new String(b_iso88591, "iso-8859-1");
通过打印出s_gbk、s_utf8、s_iso88591可以看到，s_gbk和s_utf8都是"中"，而s_iso88591是一个乱码，这是因为iso-8859-1的编码表中，根本就没有包含汉字，因此"中".getBytes("iso-8859-1")得到的是"?"的字节数组表示，再通过new String(b_iso88591, "iso-8858-1")还原得到的是"?"。

有时候，为了让中文字符适应某些特殊要求(如http header要求其内容必须是iso-8859-1编码)，可能会通过将中文字符按照字节方式来编码的情况，如：
String s_iso88591 = new String("中".getBytes("utf-8"), "iso-8859-1");
这样得到的字符串s_iso88591实际上是三个在iso-8859-1中的字符，在将这些字符传送到目的地后，再通过相反的方式，即：
String s_utf8 = new String(s_iso88591.getBytes("iso-8859-1"), "utf-8");
从而得到正确的中文汉字"中"，这样就既保证了遵守协议规定，也支持了中文。

注：
byte[] b = "中".getBytes("utf-8"); for(int i=0; i<b.length; i++) { 　　System.out.println(b[i]); }
输出-28 -72 -83是因为"中"的utf-8编码为三个字节，分别是E4 B8 AD，以E4为例，换成二进制即为：

1110 0100

该二进制数将以补码存储在内存中，最高位被视为符号位，因此原码是：

1110 0100(补码) -> 1001 1011(反码) -> 1001 1100(原码)

即-(16+8+4)=-28
查看全文

相关阅读:
修复VirtualBox "This kernel requires the following features not present on the CPU: pae Unable to boot – please use a kernel appropriate for your CPU"
前几天入手一大菠萝，写个初始化教程
 CentOS 安装 Mogodb（在线 && 离线）
Mongodb中经常出现的错误（汇总）child process failed, exited with error number
XShell删除键之类的不正常
 XFtp中文乱码解决
 Xshell不能连接SSH的解决（附Kali2.0 SSH连接）
Virtual Box 工具栏（菜单栏）消失的解决方法
 Kali无法定位软件包的解决方案
 数据库备份相关

原文地址：https://www.cnblogs.com/kevinq/p/4909343.html