Windows下编译Java源文件的编码错误
一、问题描述
==================
import java.util.Arrays; public class ArrayAsAReference{ public static void main(String[] args) { int[] arr = null; System.out.println(arr); arr = new int[]{1, 2, 3, 4}; // 静态创建数组对象 System.out.println(Arrays.toString(arr)); int[] prices; prices = new int[5]; // 动态创建数组对象 System.out.println(Arrays.toString(prices)); System.out.println(); //使用普通循环遍历数组对象 for(int i = 0; i < prices.length; i++) { System.out.println("prices[" + i + "] = " + prices[i]); } System.out.println(); //使用foreach循环遍历数组对象 for (int price : prices) { System.out.println("price:" + price); } } }
然后在cmd.exe里用javac去编译,出现了如下的错误:
二、分析解决
=========
出现这种情况,表面原因是源文件中有GBK不可映射字符。根据这个信息可以得知源代码的字符编码不是GBK的,所以其中的一些字符不可映射为GBK编码,所以解决方法是很明显的,那就是把源代码的编码格式转换为GBK编码的。具体在notepad++中也很简单:选中目标源代码文件的tab,点击“格式”->“转为ANSI编码格式”,保存,再编译,这时候编译就可以通过了。
这个问题可以通过把源代码的编码方式转为GBK编码解决,但是如果我就是不想转,就是要用源代码本来的编码方式去编译该怎么做呢?
那就得在编译的时候用-encoding 参数来指定源代码的编码格式。比如,本例中通过notepad的格式菜单可以看到源代码本来的编码格式是utf-8,那么就可以这样编译:javac -encoding utf-8 ArrayAsAReference.java,也可以顺利的编译通过。
总之,如果在编译阶段出现编码问题,更为一般的解决方法就是搞清楚源程序的编码格式,通过-encoding参数指定源程序的编码格式,就肯定可以编译通过。
三、问题延伸
=========
源代码的编码格式为什么会引起编译错误呢?这个问题涉及到javac对源代码的编码格式处理方法。
在编译的时候,如果没有用-encoding参数指定java源程序的编码格式,则javac.exe认为源代码的编码格式是操作系统默认的编码格式,所以就会用按照操作系统默认的编码格式去处理源代码。上面由于windows下默认编码格式是GBK,编译的时候没有javac就会把ArrayAsAReference.java当成GBK编码的文件,但是实际上ArrayAsAReference.java是utf-8格式,所以转换就出现了错误。
javac编译源代码的是时候会先按照源程序的编码格式读取源程序,编译,编译生成.class类文件,此时.class文件也是unicode编码的,它暂放在内存中,最后javac将unicode编码的class文件保存到操作系统中形成.class文件。
因此,编码问题只会出现在编译阶段,而在运行阶段用java命令去执行class文件的时候从来不会出现编码问题,因为编译后的class文件必然是unicode编码的。