zoukankan      html  css  js  c++  java
  • java 读取不同编码的txt文件 中文乱码二

    之前的文章中判断txt的编码,发现utf-8无BOM编码格式无法检测出来。

    当无法检测时(返回的code为空时),再使用一下方法则可以了。

     /**
         * 传入一个文件(File)对象,检查文件编码
         *
         * @param file
         *            File对象实例
         * @return 文件编码,若无,则返回null
         * @throws FileNotFoundException
         * @throws IOException
         */
        public String guessFileEncoding(File file) throws FileNotFoundException, IOException {
            return guessFileEncoding(file, new nsDetector());
        }
    
        /**
         * <pre>
         * 获取文件的编码
         * @param file
         *            File对象实例
         * @param languageHint
         *            语言提示区域代码 @see #nsPSMDetector ,取值如下:
         *             1 : Japanese
         *             2 : Chinese
         *             3 : Simplified Chinese
         *             4 : Traditional Chinese
         *             5 : Korean
         *             6 : Dont know(default)
         * </pre>
         *
         * @return 文件编码,eg:UTF-8,GBK,GB2312形式(不确定的时候,返回可能的字符编码序列);若无,则返回null
         * @throws FileNotFoundException
         * @throws IOException
         */
        public String guessFileEncoding(File file, int languageHint) throws FileNotFoundException, IOException {
            return guessFileEncoding(file, new nsDetector(languageHint));
        }
    
        /**
         * 获取文件的编码
         *
         * @param file
         * @param det
         * @return
         * @throws FileNotFoundException
         * @throws IOException
         */
        private String guessFileEncoding(File file, nsDetector det) throws FileNotFoundException, IOException {
            // Set an observer...
            // The Notify() will be called when a matching charset is found.
            det.Init(new nsICharsetDetectionObserver() {
                public void Notify(String charset) {
                    encoding = charset;
                    found = true;
                }
            });
    
            BufferedInputStream imp = new BufferedInputStream(new FileInputStream(file));
            byte[] buf = new byte[1024];
            int len;
            boolean done = false;
            boolean isAscii = false;
    
            while ((len = imp.read(buf, 0, buf.length)) != -1) {
                // Check if the stream is only ascii.
                isAscii = det.isAscii(buf, len);
                if (isAscii) {
                    break;
                }
                // DoIt if non-ascii and not done yet.
                done = det.DoIt(buf, len, false);
                if (done) {
                    break;
                }
            }
            imp.close();
            det.DataEnd();
    
            if (isAscii) {
                encoding = "ASCII";
                found = true;
            }
    
            if (!found) {
                String[] prob = det.getProbableCharsets();
                //这里将可能的字符集组合起来返回
                for (int i = 0; i < prob.length; i++) {
                    if (i == 0) {
                        encoding = prob[i];
                    } else {
                        encoding += "," + prob[i];
                    }
                }
    
                if (prob.length > 0) {
                    // 在没有发现情况下,也可以只取第一个可能的编码,这里返回的是一个可能的序列
                    return encoding;
                } else {
                    return null;
                }
            }
            return encoding;
        }
    

      

  • 相关阅读:
    Asp.Net细节性问题精萃(转)
    开发OFFICE插件总结(转)
    校内网开心网数据同步引发的讨论(转)
    C++指针探讨 (三) 成员函数指针 (转)
    C++指针探讨 (二) 函数指针 (转)
    【原创】编程获取PE文件信息的方法(转)
    为.net开发者提供的一份关于存储过程的评论(转)
    C++指针探讨 (一)数据指针 (转)
    如何批量修改PPT字体、大小、颜色(转)
    搜索引擎里的爱人(转)
  • 原文地址:https://www.cnblogs.com/java-chanjuan/p/6418071.html
Copyright © 2011-2022 走看看