zoukankan      html  css  js  c++  java
  • Cpdetector编码识别

    概述

    浏览器在打开一个网页时,首要任务是判断网页的编码格式,然后采用合适的编码进行解析;我们常用的文本编辑器在打开文档时同样需要判断文档的编码进行相应的解析。这涉及到的技术就是编码甄别,下面我们介绍一款比较好用的Java 库。

    http://sourceforge.net/projects/cpdetector/这个地址可以下载到。

    实例

    不做过多赘述了,直接贴出实例代码。

    package com.coder4j.main.cpdetector;
    
    import info.monitorenter.cpdetector.io.ASCIIDetector;
    import info.monitorenter.cpdetector.io.ByteOrderMarkDetector;
    import info.monitorenter.cpdetector.io.CodepageDetectorProxy;
    import info.monitorenter.cpdetector.io.JChardetFacade;
    import info.monitorenter.cpdetector.io.ParsingDetector;
    import info.monitorenter.cpdetector.io.UnicodeDetector;
    
    import java.net.MalformedURLException;
    import java.net.URL;
    
    /**
     * 导入如下jar<br>
     * cpdetector_1.0.10.jar,antlr-2.7.4.jar,chardet-1.0.jar
    *
     * @author Chinaxiang
     * @date 2015-10-11
    *
    */
    public class UseCpdetector {
    
    /**
     * 获取URL的编码
    *
     * @param url
     * @return
    */
     public static String getUrlEncode(URL url) {
    /*
     * detector是探测器,它把探测任务交给具体的探测实现类的实例完成。
     * cpDetector内置了一些常用的探测实现类,这些探测实现类的实例可以通过add方法 加进来,如ParsingDetector、
     * JChardetFacade、ASCIIDetector、UnicodeDetector。
     * detector按照“谁最先返回非空的探测结果,就以该结果为准”的原则返回探测到的
     * 字符集编码。使用需要用到三个第三方JAR包:antlr.jar、chardet.jar和cpdetector.jar
     * cpDetector是基于统计学原理的,不保证完全正确。
    */
     CodepageDetectorProxy detector = CodepageDetectorProxy.getInstance();
    /*
     * ParsingDetector可用于检查HTML、XML等文件或字符流的编码,构造方法中的参数用于
     * 指示是否显示探测过程的详细信息,为false不显示。
    */
     detector.add(new ParsingDetector(false));
     detector.add(new ByteOrderMarkDetector());
    /*
     * JChardetFacade封装了由Mozilla组织提供的JChardet,它可以完成大多数文件的编码
     * 测定。所以,一般有了这个探测器就可满足大多数项目的要求,如果你还不放心,可以
     * 再多加几个探测器,比如下面的ASCIIDetector、UnicodeDetector等。
    *
     * 用到antlr.jar、chardet.jar
    */
    detector.add(JChardetFacade.getInstance());
     // ASCIIDetector用于ASCII编码测定
    detector.add(ASCIIDetector.getInstance());
     // UnicodeDetector用于Unicode家族编码的测定
    detector.add(UnicodeDetector.getInstance());
    
    
     java.nio.charset.Charset charset = null;
     try {
     charset = detector.detectCodepage(url);
     } catch (Exception ex) {
    ex.printStackTrace();
    }
     if (charset != null) {
     return charset.name();
    }
     return null;
    }
    
     public static void main(String[] args) {
     try {
     URL url = new URL("http://www.baidu.com");
     String encode = getUrlEncode(url);
     System.out.println(encode);// UTF-8
     } catch (MalformedURLException e) {
    e.printStackTrace();
    }
    }
    
    }
    View Code

    文件的路径也可以转为URL,所以对文件编码的判断你应该会了。

  • 相关阅读:
    开源一个常用的小软件的源码——系统数据库服务管理软件
    MySql Windws 下自动备份脚本
    ubuntu-14.04-server配置Jexus --安装步骤记录
    Jumony快速抓取网页 --- Jumony使用笔记--icode
    视频教程--ASP.NET MVC 使用 Petapoco 微型ORM框架+NpgSql驱动连接 PostgreSQL数据库
    收录.NET跨平台及跨数据库的博文...
    ASP.NET MVC 使用 Petapoco 微型ORM框架+NpgSql驱动连接 PostgreSQL数据库
    Windbg程序调试系列
    QCY蓝牙耳机 左右两只耳机配对 方法
    wpf 的 Window或UserControl绑定自己后台属性
  • 原文地址:https://www.cnblogs.com/liinux/p/5522019.html
Copyright © 2011-2022 走看看