zoukankan      html  css  js  c++  java
  • 文本数据特征选取的四种方法

         目前大多数中文文本分类系统都采用词作为特征项,作为特征项的词称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算 。

    基于频率的过滤方法

        基于频率的过滤方法中,一条留言中一个词语出现一次以上都是按照一次计算。本文采用了长匹配优先的方式对其进行匹配。如果一个词语包含另一个词语,则被包含的词语的次数不能加一,例如第一条留言中出现“清楚”,包含“清”,第二条留言中包含“清”,则“清出现的次数只能是一次,而不是两次”,还有一种特殊情况是“松”被分作了两个词性,“松/a”和“松/ng”,对于这种情况我们把所有词语的词性去掉之后再统计这个词语出现的次数。

    基于信息增益的过滤方法

    基于信息增益的过滤方法中,根据IG计算公式计算需要留下的IG值,

    c表示类别,属于此类或者不属于;τ表示此特征出现与否,布尔型。若特征与类别无关,则IG=0。

    1.1.1      基于条件概率比的过滤方法

    基于条件概率比的过滤方法,根据下面公式计算,

                                              

    在这里越小越好,即其值越小越有意义,说明word在不同类别中出现的概率差异大。若

    ,说明word的出现与类别判断无关,可去掉;若

    ,说明word的出现与类别高度有关,此类词语需保留。

    1.1.2      基于期望值差异的过滤方法

    基于期望值差异的过滤方法,根据以下计算方法计算,一个词项word在类中出现的期望值=word在所有数据表中出现的总次数,令=word在类中出现的实际次数,则

    ,                                           

    对于E值,E越大越有意义。

  • 相关阅读:
    2020前端学习路线 之完结篇
    axios 请求超时,设置重新请求的完美解决方法
    如何终止前端发起的请求?
    轮询与长轮询
    最全React技术栈技术资料汇总(收藏)
    React 服务端渲染完美的解决方案
    将数组格式的字符串转换成数组
    Cannot read property 'map' of undefined
    计算机编码方式简介
    python01之文件处理
  • 原文地址:https://www.cnblogs.com/nurbs/p/6568951.html
Copyright © 2011-2022 走看看