zoukankan      html  css  js  c++  java
  • Java过滤敏感词语/词汇---DFA算法

    最近网站需要在评论、投稿等地方过滤敏感词汇,于是在网上查找了相关教程,特此整理分享。

    关于DFA算法,详细的可以去http://blog.csdn.net/u013378306/article/details/52764955 看看。

    在这纪录下如何配合js验证控件validate来使用它:

    首先把工具类导入到项目中:

    package com.test.util;
    
    import java.io.BufferedReader;
    import java.io.File;
    import java.io.FileInputStream;
    import java.io.IOException;
    import java.io.InputStreamReader;
    import java.util.HashMap;
    import java.util.HashSet;
    import java.util.Iterator;
    import java.util.Map;
    import java.util.Set;
    
    import org.springframework.stereotype.Component;
    
    /**
     * Utils - 敏感词
     * 
     * @author test
     * @version 3.0
     */
    @Component
    public class DirtyStringUtil {
        
        private static String ENCODING = "UTF-8";    //字符编码
        
        private static String PATH = "/resources/shop/dirtyString/DirtyString.txt";    //你的敏感词汇的文件  我会给大家分享一个我们用的
        
        public static int minMatchTYpe = 1;      //最小匹配规则
        
        public static int maxMatchType = 2;      //最大匹配规则
    
        @SuppressWarnings("rawtypes")
        public static HashMap sensitiveWordMap;
        
        static {
            try {
                sensitiveWordMap = addSensitiveWordToHashMap(StringUtils.sourFolder+PATH);
            } catch (Exception e) {
            }
        }
        
        /**
         * 读取敏感词库,将敏感词放入HashSet中,构建一个DFA算法模型:<br>
         * 中 = {
         *      isEnd = 0
         *      国 = {<br>
         *           isEnd = 1
         *           人 = {isEnd = 0
         *                民 = {isEnd = 1}
         *                }
         *           男  = {
         *                  isEnd = 0
         *                   人 = {
         *                        isEnd = 1
         *                       }
         *               }
         *           }
         *      }
         *  五 = {
         *      isEnd = 0
         *      星 = {
         *          isEnd = 0
         *          红 = {
         *              isEnd = 0
         *              旗 = {
         *                   isEnd = 1
         *                  }
         *              }
         *          }
         *      }
         * @date 2014年4月20日 下午3:04:20
         * @param keyWordSet  敏感词库
         * @version 1.0
         */
        @SuppressWarnings({ "rawtypes", "unchecked" })
        private static HashMap addSensitiveWordToHashMap(String path) {
            Set<String> keyWordSet = null;
            
            File file = new File(path);    //读取文件
            InputStreamReader read = null;
            try {
                read = new InputStreamReader(new FileInputStream(file),ENCODING);
                if(file.isFile() && file.exists()){      //文件流是否存在
                    keyWordSet = new HashSet<String>();
                    @SuppressWarnings("resource")
                    BufferedReader bufferedReader = new BufferedReader(read);
                    String txt = null;
                    while((txt = bufferedReader.readLine()) != null){    //读取文件,将文件内容放入到set中
                        keyWordSet.add(txt);
                    }
                }
                else{         //不存在抛出异常信息
                    throw new Exception("敏感词库文件不存在");
                }
            } catch (Exception e) {
                    e.printStackTrace();
            }finally{
                try { //关闭文件流
                    if (read != null) {
                        read.close();
                    }
                } catch (IOException e) {
                    e.printStackTrace();
                }    
            }
            
            HashMap sensitiveWordMap = new HashMap(keyWordSet.size());     //初始化敏感词容器,减少扩容操作
            String key = null;  
            Map nowMap = null;
            Map<String, String> newWorMap = null;
            //迭代keyWordSet
            Iterator<String> iterator = keyWordSet.iterator();
            while(iterator.hasNext()){
                key = iterator.next();    //关键字
                nowMap = sensitiveWordMap;
                for(int i = 0 ; i < key.length() ; i++){
                    char keyChar = key.charAt(i);       //转换成char型
                    Object wordMap = nowMap.get(keyChar);       //获取
                    
                    if(wordMap != null){        //如果存在该key,直接赋值
                        nowMap = (Map) wordMap;
                    }
                    else{     //不存在则,则构建一个map,同时将isEnd设置为0,因为他不是最后一个
                        newWorMap = new HashMap<String,String>();
                        newWorMap.put("isEnd", "0");     //不是最后一个
                        nowMap.put(keyChar, newWorMap);
                        nowMap = newWorMap;
                    }
                    
                    if(i == key.length() - 1){
                        nowMap.put("isEnd", "1");    //最后一个
                    }
                }
            }
            return sensitiveWordMap;
        }
    
        
        
        /**
         * 检查文字中是否包含敏感字符,检查规则如下:<br>
         * @date 2014年4月20日 下午4:31:03
         * @param txt
         * @param beginIndex
         * @param matchType
         * @return,如果存在,则返回敏感词字符的长度,不存在返回0
         * @version 1.0
         */
        @SuppressWarnings({ "rawtypes"})
        public static int CheckSensitiveWord(String txt, Map nowMap, int beginIndex,int matchType){
            boolean  flag = false;    //敏感词结束标识位:用于敏感词只有1位的情况
            int matchFlag = 0;     //匹配标识数默认为0
            char word = 0;
            for(int i = beginIndex; i < txt.length() ; i++){
                word = txt.charAt(i);
                nowMap = (Map) nowMap.get(word);     //获取指定key
                if(nowMap != null){     //存在,则判断是否为最后一个
                    matchFlag++;     //找到相应key,匹配标识+1 
                    if("1".equals(nowMap.get("isEnd"))){       //如果为最后一个匹配规则,结束循环,返回匹配标识数
                        flag = true;       //结束标志位为true   
                        if(minMatchTYpe == matchType){    //最小规则,直接返回,最大规则还需继续查找
                            break;
                        }
                    }
                }
                else{     //不存在,直接返回
                    break;
                }
            }
            if(matchFlag < 2 || !flag){        //长度必须大于等于1,为词 
                matchFlag = 0;
            }
            return matchFlag;
        }
        
        
        /**
         * 判断文字是否包含敏感字符
         * @date 2014年4月20日 下午4:28:30
         * @param path  敏感词库文件路径
         * @param txt  文字
         * @param matchType  匹配规则&nbsp;1:最小匹配规则,2:最大匹配规则
         * @return 若包含返回true,否则返回false
         * @version 1.0
         */
        public static boolean isContaintSensitiveWord(String txt, int matchType){
            boolean flag = false;
            for(int i = 0 ; i < txt.length() ; i++){
                int matchFlag = CheckSensitiveWord(txt, sensitiveWordMap, i, matchType); //判断是否包含敏感字符
                if(matchFlag > 0){    //大于0存在,返回true
                    flag = true;
                }
            }
            return flag;
        }
        
    }
    PATH 的路径就是你把敏感词汇那个文档放到的那个路径,这个是我们用的文档:http://pan.baidu.com/s/1o8uD2yQ

    然后是验证相关的代码(content就是要验证的那个内容):

    $inputForm.validate({
                    focusCleanup: true,
                    rules: {
                        title:       "required",//标题不为空
                        linkName: "required", //名字不为空                    
                        linkPhone: {//验证手机
                                    required: true,
                                    pattern: /^((0d{2,3}-d{7,8})|(1[34578]d{9}))$/,
                            },
                        content:{
                            remote: {//此处就是验证是否饱含敏感词汇的  把这个地址替换成你的controller
                                url: "${base}/dirtyString/check_dirtyString.jhtml"
                            }
                        }    
                    },
                    messages: {
                        content: {            
                            remote: "含敏感词汇,请修改后重新发布"
                        }
                    }

    remote的url处就是验证是否饱含敏感词汇的, 把这个地址替换成你的controller。

    然后就是我们controller的代码:

    package com.test.controller.shop;
    
    import org.apache.commons.lang.StringUtils;
    import org.springframework.stereotype.Controller;
    import org.springframework.web.bind.annotation.RequestMapping;
    import org.springframework.web.bind.annotation.RequestMethod;
    import org.springframework.web.bind.annotation.ResponseBody;
    
    import com.nbcyl.util.DirtyStringUtil;
    
    @Controller("dirtyStringController")
    @RequestMapping("/dirtyString")
    public class DirtyStringController {
        
        /**
         * 检查内容是否包含敏感词语
         */
        @RequestMapping(value = "/check_dirtyString", method = RequestMethod.GET)
        public @ResponseBody
        boolean checkDirtyString(String content) {
            if (StringUtils.isEmpty(content)) {
                return false;
            }
            //去除中英文空格 然后调用工具类判断 是否饱含 敏感词  
            String lastContent = content.replaceAll("\s", "").replaceAll(" ", "");
            if (DirtyStringUtil.isContaintSensitiveWord(lastContent, 2)) {
                return false;
            } else {
                return true;
            }
        }
    }

    OK,到这基本上就可以啦,当你的页面触发了validate时,就会提示那个message里设置的文字了!

  • 相关阅读:
    Git切换分支
    JS中字符串那些事~
    将博客搬至CSDN
    MFC默认窗口类名称
    Windows下使用vim编写代码,使用nmake编译代码,使用vs来调试代码
    从CWnd::GetSafeHwnd实现得到的知识
    ctags使用
    MCI支持的格式在注册表中的位置
    注意!!一定要谨慎使用c/c++原生指针
    MFC模态对话框程序不响应OnIdle
  • 原文地址:https://www.cnblogs.com/fengru/p/6055086.html
Copyright © 2011-2022 走看看