zoukankan      html  css  js  c++  java
  • 论文研读

    论文名称:姜 芳,李国和,岳 翔.基于语义的文档特征提取研究方法.

    • 研究对象
      中文文本特征词
    • 研究动机
      • 一种基于语义距离的文档特征提取方法。首先利用基于语义距离的方法提取主题相关词,然后利用信息增益算法从主题相关词中提取出文档特征。该方法首先利用语义距离准确缩小特征范围,之后再利用信息增益算法高效地提取文档特征
    • 文献综述
      •   
      研究方案设计  
      • 基于语义的文档特征提取方法
        • 运用哈工大《同义词词林》扩展版的词语树型结构,进行编码。通过词语的对应编码可以计算出词语间的语义距离。
        • 得到词语语义距离后,对所有词语进行聚类
        • 完成聚类后,选择聚类结果中包含词语数据最多的 N个子集作为提取特征的主题相关类
        • 得到主题相关类集合 M(D)后,通过信息增益方法,对词语进行评价,选取若干分类效果最好的词语作为特征词
      • 系统整体结构与流程
        • 对文档进行分词和词性标注,获得候选词语列表
        • 去除后选择与列表中的停用词后,获得分词数据集
        • 判断分词结果集 D(w)中的词语是否为《同义词词林 》未登录词 ,如为《同义词词林 》未登录词 ,则将其加入未登录词集合 u(w)
        • 计算词语语义距离
        • 对分词结果集 D(w)中登录词进行密度 聚类 ,确定主题相关类集合 M(D)
        • 对主题相关类集合 M(D)和未登录词集合U(W)中的特征进行筛选 ,得 到代表这类文档 的特征集合 D(Wt)
      • 实验验证
        • 对文档集D中的所有文档进行统一加权后 ,采用 5一交叉验证实验 ,即所有文档随机均分成5组 ,1组为测试集 ,其他4组为训练集,共进行5次实验,最后将分类评价指标的平均值作为特征词选取的依据
        • 效果评价标准
          •   

            宏 F值和微 F值综合了召回率和正确率,因此采用宏 F值和微 F值对特征词选取进行评价

        • 特征词分类能力有效性实验,根据基于语义距 离的特征词提取方法 (SFE)对 每一特征词 的分 类能力进行评估 ,并根据 评估值从大到小对所有特征词进行排序
        • 文本特征选取方法对比实验,分别采用基于语义距离的特征选取方法sFE、基 于知 网概念的特征提取方法 BHN、基于本体论的特征提取方法BOL、文档频 DF、信息增益 IG、互信息熵 MI、统计量(CHI)、文档证据权 wET、期 望交叉熵 ECE和 DIS进 行文档分类效果对 比实验
      • 使用数据集
          实验数据采用复旦大学计算机学院提供的文档集,其类别数 lCI一20,文档数 lDI一19637。采用 ICTCLAS分词系统进行分词 ,得 到特征词数 lT1约 13万 。采用 TFIDF对所有文档进行加权 :
    • 研究结论
      • 算法有效性实验表明,上述方法选取的特征词能够有效 区分不同类别 的文档 ;对 比实验表明,上述 方法所选取的特征词的分类能力优于其他现有方法,该方法是一种高效 的文本特征选取方法
          
    • 学习心得
        上一篇是同一个作者采用关键词提取,本文是用特征提取研究,运用的数据集、语义间的距离计算和聚类都是一样的。从这篇论文感受到,第一步踏出去,后面的论文写作就要容易好多。
     
     
     
  • 相关阅读:
    一键安装vsftpd服务并开通ftp账户
    mysql 利用新建从库 使用 start slave until 恢复方法
    使用ThinBackup插件备份 jenkins
    docker 日志清理
    mysql5.7 MGR配置
    mysql5.7 开启增强半同步复制
    网站qps计算方法
    mysql不支持emoji表情的问题的解决方法
    网络安全
    Cronjob 简介
  • 原文地址:https://www.cnblogs.com/lkl7117/p/11255530.html
Copyright © 2011-2022 走看看