zoukankan      html  css  js  c++  java
  • DFA算法的简单说明!

    1.DFA算法简介

    DFA全称为:Deterministic Finite Automaton,即确定有穷自动机。其特征为:有一个有限状态集合和一些从一个状态通向另一个状态的边,每条边上标记有一个符号,其中一个状态是初态,某些状态是终态。但不同于不确定的有限自动机,DFA中不会有从同一状态出发的两条边标志有相同的符号。

    <?php
    /**
     * 敏感词过滤方法.
     */
    
    namespace appcommon	ool;
    
    
    use appcommonmodelSensitive;
    
    class SensitiveTool
    {
        private static $arrHashMap = [];
        private static $file       = ROOT_PATH.'runtime'.DS.'sensitive.txt';
    
        /**
         * 把敏感词保存为文件
         * @return bool|int
         */
        public static function saveSensitiveWord(){
            $data = Sensitive::all();
            foreach( $data as $k => $v ){
                self::addKeyWord($v['name']);
            }
            return file_put_contents(self::$file,serialize(self::$arrHashMap));
    
        }
    
        /**
         * 过滤敏感词
         * @param $strWord
         * @return mixed
         */
        public static function filterSensitiveWord( $strWord ){
            $file = unserialize(file_get_contents(self::$file));
            $resStr  = $strWord;
            if(!empty($file)){
                $len = mb_strlen($strWord, 'UTF-8');
                $arrHashMap = self::$arrHashMap = $file;
                $newWord = '';
                for ($i=0; $i < $len; $i++) {
                    $word = mb_substr($strWord, $i, 1, 'UTF-8');
                    if (!isset($arrHashMap[$word])) {
                        $arrHashMap = self::$arrHashMap;
                        $newWord = '';
                    }
                    $newWord .= $word;
                    if ($arrHashMap[$word]['end']) {
                        $asterisk = self::getAsterisk(mb_strlen($newWord, 'UTF-8'));
                        $resStr = str_replace($newWord,$asterisk,$resStr);
                        $newWord = '';
                        $arrHashMap = self::$arrHashMap;
                    } else{
                        $arrHashMap = $arrHashMap[$word];
    
                    }
                }
            }
    
            return $resStr;
        }
    
        /**
         * 过滤邮箱和手机号(8位以上数字)
         * @param $msg
         * @return string
         */
        public static function filterTelMail( $msg ):string {
            if(is_string((string)$msg)){
                $msg = preg_replace('/d{8,}/', '****', $msg);
                $msg = preg_replace('/[_a-z0-9-]+(.[_a-z0-9-]+)*@[a-z0-9-]+(.[a-z0-9-]+)*(.[a-z]{2,})/i', '****', $msg);
            }else{
                $msg = '';
            }
    
            return $msg;
        }
        /**
         * 新增敏感词的核心方法
         * @param $strWord
         */
        private static function addKeyWord( $strWord ) { //免定金峨眉牌汽枪
            $len = mb_strlen($strWord, 'UTF-8');
    
            $arrHashMap = &self::$arrHashMap;
            for ($i=0; $i < $len; $i++) {
                $word = mb_substr($strWord, $i, 1, 'UTF-8');
                // 已存在
                if (isset($arrHashMap[$word])) {
                    if ($i == ($len - 1)) {
                        $arrHashMap[$word]['end'] = 1;
                    }
                } else {
                    // 不存在
                    if ($i == ($len - 1)) {
                        $arrHashMap[$word] = [];
                        $arrHashMap[$word]['end'] = 1;
                    } else {
                        $arrHashMap[$word] = [];
                        $arrHashMap[$word]['end'] = 0;
                    }
                }
                // 传址
                $arrHashMap = &$arrHashMap[$word];
            }
        }
    
        /**
         * 生成*号
         * @param int $num
         * @return string
         */
        private static function getAsterisk( int $num ) :string {
            $str = '';
            for($i=1;$i<=$num;$i++) {
                $str .= '*';
            }
            return $str;
        }
    
    }

    以下是网上优化思路,暂时没有考虑:

    2.优化思路

    2.1敏感词中间填充无意义字符问题

    对于“王*八&&蛋”这样的词,中间填充了无意义的字符来混淆,在我们做敏感词搜索时,同样应该做一个无意义词的过滤,当循环到这类无意义的字符时进行跳过,避免干扰。

    2.2敏感词用拼音或部分用拼音代替

    两种解决思路:一种是最简单是遇到这类问题,先丰富敏感词库进行快速解决。第二种是判断时将敏感词转换为拼音进行对比判断。

    不过目前这两种方案均不能彻底很好的解决该问题,此类问题还需进一步研究。

    参考资源:

    http://www.mamicode.com/info-detail-965728.html

    https://blog.csdn.net/qq_36827957/article/details/74357283

  • 相关阅读:
    cf 1179 C
    P5055 【模板】可持久化文艺平衡树 可持久化fhqtreap
    bzoj4605: 崂山白花蛇草水 权值线段树套KDtree
    luoguP4173 残缺的字符串 FFT
    [HNOI2016]序列 CDQ+DP
    [TJOI2017]不勤劳的图书管理员
    loj2058 「TJOI / HEOI2016」求和 NTT
    bzoj4503: 两个串
    luoguP4721 【模板】分治 FFT
    [Cqoi2016]K远点对 K-Dtree
  • 原文地址:https://www.cnblogs.com/myvic/p/8671991.html
Copyright © 2011-2022 走看看