zoukankan      html  css  js  c++  java
  • 过滤敏感词汇

    问题描述:由于需求 需要 评论功能,但是评论功能是用户写上去的,用户提交的东西是不能相信的,需要过滤,防止录入攻击代码等等;
    这里只介绍 一个 极简的过滤敏感字符串的方法;

    我在写这个过滤字符串方法之前 上网查过有没有开放的接口;找了找要么收费 要么没有开源的接口;所以还是自己写一个吧;

     1 /**
     2  * @desc 匹配敏感词汇
     3  * @author weizenghui
     4  * @version 3.0
     5  * @param $content
     6  * @return array;
     7  */
     8 function filterText($content){
     9     $filterArr = array('习*平','李*强','尼玛','你妈','他妈','我曹','握草','窝草','我操','卧槽','傻逼','煞笔','麻痹','马蛋','鸡巴','我日','滚蛋','去他妈');
    10     $arr = '';
    11     foreach ($filterArr as $val){
    12         $count = mb_substr_count($content,$val);
    13         if($count > 0){
    14             $arr[] = $val;
    15         }
    16     }
    17     
    18     if(empty($arr)){
    19         $data = array('status' => false);    
    20     }else{
    21         $data = array('status' => true,'str' => implode(',', $arr));
    22     }
    23     return $data;
    24 }

    这个方法也许并不好 效率很低,但是确实可以使用

    下面介绍一个更加高效的思路,内容摘自互联网:

    关键词过滤扩展,用于检查一段文本中是否出现敏感词,基于Double-Array Trie 树实现。

    安装步骤

    下面的$LIB_PATH为依赖库安装目录,$INSTALL_PHP_PATH为PHP5安装目录。

    安装libdatrie依赖库

    Bash
    $ tar zxvf libdatrie-0.2.4.tar.gz
    $ cd libdatrie-0.2.4
    $ make clean
    $ ./configure --prefix=$LIB_PATH
    $ make
    $ make install

    安装trie_filter扩展 (https://github.com/wulijun/php-ext-trie-filter)

    Bash
    $ $INSTALL_PHP_PATH/bin/phpize
    $ ./configure --with-php-config=$INSTALL_PHP_PATH/bin/php-config --with-trie_filter=$LIB_PATH
    $ make
    $ make install

    然后修改php.ini,增加一行:extension=trie_filter.so,然后重启PHP。

    PHP测试实例

    PHP
    <?php
    ini_set('memory_limit', '512M');
    $arrWord = file('dict.txt');
    
    $resTrie = trie_filter_new();
    
    foreach ($arrWord as $k => $v) {
        trie_filter_store($resTrie, $v);
    }
    trie_filter_save($resTrie, __DIR__ . '/blackword.tree');
    $resTrie = trie_filter_load(__DIR__ . '/blackword.tree');
    
    $str = '王玉鹏的媳妇叫刘敏,王玉鹏的邮箱地址是wangyupeng@jiayuan.com,想不想知道他的QQ号呢?';
    $arrRet = trie_filter_search_all($resTrie, $str);
    
    print_all($str, $arrRet);
    
    function print_all($str, $res) {//print_r($res);
        echo "$str
    ";
        foreach ($res as $k => $v) {
            echo $k."=>{$v[0]}-{$v[1]}-".substr($str, $v[0], $v[1])."
    ";
        }
    }

     

    测试效果,输出格式(顺序值=>该敏感词出现的位置-该敏感词的长度-敏感词)

    执行效率,高高高,超级高,速度非常快。

    QQ截图20151016232103.png

    注意事项

    dict.txt 为敏感词库,一个词一行

    QQ截图20151016230827.png

    优化建议

    把文本词库生成tree的过程需要时间,该步骤可以异步实现,过滤过程只需要加载tree即刻。

    PHP需要5.2以上版本

    相关下载:

    http://linux.thai.net/pub/thailinux/software/libthai/

    https://github.com/wulijun/php-ext-trie-filter

  • 相关阅读:
    C语言I博客作业08
    C语言I博客作业07
    C语言I博客作业06
    C语言I博客作业05
    C语言I博客作业04
    String详解
    数据库中索引相关基础知识
    论文笔记:RankIQA
    目标检测 | 火焰烟雾检测论文(实验部分)
    图像质量评价:合成失真图像方法
  • 原文地址:https://www.cnblogs.com/ailingfei/p/6423981.html
Copyright © 2011-2022 走看看