感谢大佬:
https://www.cnblogs.com/yangguoe/p/8467672.html(编码发展史)
https://blog.csdn.net/seabiscuityj/article/details/80762658(Java文件编码解析)
https://www.xuebuyuan.com/3236710.html(Java文件编码解析)
https://blog.51cto.com/lavasoft/273608(Java文件编码的统一)
设置字符编码格式 一般是 utf-8 有很多编码格式的补充:在JSP页面中,有2种类方式可以设置JSP的编码格式一个是<%page
contentType charset=""%>,其中charset是指服务器发送给客户端时的内容编码 另外一个是<%page
pageEncoding=""%>,其中pageEncoding是jsp文件本身的编码JSP要经过两次的“编码”,第一阶段会用pageEncoding,第二阶段会用utf-8至utf-8,第三阶段就是由Tomcat出来的网页,
用的是contentType。
第一阶段是jsp编译成.java,它会根据pageEncoding的设定读取jsp,结果是由指定的编码方案翻译成统一的UTF-8
JAVA源码(即.java),如果pageEncoding设定错了,或没有设定,出来的就是中文乱码。
第二阶段是由JAVAC的JAVA源码至java
byteCode的编译,不论JSP编写时候用的是什么编码方案,经过这个阶段的结果全部是UTF-8的encoding的java源码。
我的理解:
-
在文件中明确写出说明的编码只是告诉某个程序采用什么方式去解码,所以实际文件存储采用的编码要和说明的编码一致才行。
-
Java采用Unicode码(两个字节表示一个字符,并且JVM仅采用unicode码),所以Java编译是会转换成存储编码为Unicode码(.class的编码具体来说是UTF-16编码)的字节码文件(.Class文件)。
-
pageEncodeing:告诉JSP服务器引擎将.jsp文件转换为.java源文件时需要的编码。
-
contentType charset:告诉服务器发送给客户端时的要用的内容编码。浏览器会优先采用服务器返回的Content-Type,如果没有就用页面上的Content-Type,还没有就识别文件编码,但浏览器识别编码有一定几率会失败的导致乱码。
-
可以通过
javac -encoding 编码 XX.java
来指定编码编译源文件,不指定的话,默认获取系统文件编码。 -
注意编码数据的获取问题,特别是网络数据传输时,还有数据库数据传输时,注意解码编码转换。
大佬博文: