zoukankan      html  css  js  c++  java
  • 12-文本数据提取方法--简介

    词袋法:

      统计文本中出现的各个单词出现的数量,使用单词出现的数量作为文本的特征向量,使用单词作为特征, 但是单词一般情况比较多,所以考虑使用自定义词典作为特征,然后对自定义词典中的单词出现的数量进行统计即可.(频数)

    哑编码:

      将有限个类别的特征属性转换为数值型的特征向量,也就是用向量的形式来表示特征

    1-of-k:(类别尽可能互斥)

      功能:将非数值型的特征转换为数值型的数据;要求特征值的取值只有k种

      描述:假设变量的取值有k个,如果对这些值用1到k编序,则可用维度为k的向量来表示一个变量的值.在这样的向量里,该取值所对应的序号所在的元素为1,其他元素均为0.

    TF-IDF

    TF:指的是一个单词在当前文档中的所有单词中占的比例

    IDF:逆文档频率,指的是所有文档中,包含当前单词的文档的逆向频率

    TF-IDF公式(只是一个表现形式,具体怎么选择根据实际情况):

      TF-IDF=TF*IDF

         TF-IDF=TF*ln(IDF)

      TF-IDF=TF*ln(IDF+1)  #表面IDF=0的情况  使用的比较多

      TF-IDF=TF*[1+ln(IDF+1)]   #也可以改为对数函数

    TF-IDF解释:

      词条的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降;也就是说词条在文本中出现的次数越多,表示该词条对文本的重要性越高.TF(词频)指某个词条在文本中出现的次数,一般会将其进行归一化处理(该词条数量/该文档中是所有词条数量);IDF(逆向文件频率)指一个词条的重要性的度量,一般计算方式为总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到.TF-IDF实际上是:TF*IDF

          

  • 相关阅读:
    前端几个常用简单的开发手册拿走不谢
    初中级前端开发工程师如何提升个人能力?
    初中级前端开发工程师如何提升个人能力?
    【程序人生】那些工作之外的技术挣钱方式
    Java EE (13) -- 常用的基础结构模式
    3、数据类型
    洛谷——P2299 Mzc和体委的争夺战
    codevs——T1214 线段覆盖
    洛谷——P1106 删数问题
    洛谷——P1031 均分纸牌
  • 原文地址:https://www.cnblogs.com/lixiaohao1992/p/9486440.html
Copyright © 2011-2022 走看看