论文研读 - 走看看

zoukankan html css js c++ java

论文研读
论文名称：姜芳，李国和，岳翔.基于语义的文档特征提取研究方法.

研究对象

中文文本特征词

研究动机

一种基于语义距离的文档特征提取方法。首先利用基于语义距离的方法提取主题相关词，然后利用信息增益算法从主题相关词中提取出文档特征。该方法首先利用语义距离准确缩小特征范围，之后再利用信息增益算法高效地提取文档特征

文献综述

　　

研究方案设计　　

基于语义的文档特征提取方法

运用哈工大《同义词词林》扩展版的词语树型结构，进行编码。通过词语的对应编码可以计算出词语间的语义距离。

得到词语语义距离后，对所有词语进行聚类

完成聚类后，选择聚类结果中包含词语数据最多的 N个子集作为提取特征的主题相关类

得到主题相关类集合 M(D)后，通过信息增益方法，对词语进行评价，选取若干分类效果最好的词语作为特征词

系统整体结构与流程

对文档进行分词和词性标注，获得候选词语列表

去除后选择与列表中的停用词后，获得分词数据集

判断分词结果集 D(w)中的词语是否为《同义词词林》未登录词，如为《同义词词林》未登录词，则将其加入未登录词集合 u(w)

计算词语语义距离

对分词结果集 D(w)中登录词进行密度聚类，确定主题相关类集合 M(D)

对主题相关类集合 M(D)和未登录词集合U(W)中的特征进行筛选，得到代表这类文档的特征集合 D(Wt)

实验验证

对文档集D中的所有文档进行统一加权后，采用 5一交叉验证实验，即所有文档随机均分成5组，1组为测试集，其他4组为训练集，共进行5次实验，最后将分类评价指标的平均值作为特征词选取的依据

效果评价标准

　　
宏 F值和微 F值综合了召回率和正确率，因此采用宏 F值和微 F值对特征词选取进行评价

特征词分类能力有效性实验，根据基于语义距离的特征词提取方法 (SFE)对每一特征词的分类能力进行评估，并根据评估值从大到小对所有特征词进行排序

文本特征选取方法对比实验，分别采用基于语义距离的特征选取方法sFE、基于知网概念的特征提取方法 BHN、基于本体论的特征提取方法BOL、文档频 DF、信息增益 IG、互信息熵 MI、统计量(CHI)、文档证据权 wET、期望交叉熵 ECE和 DIS进行文档分类效果对比实验

使用数据集

　　实验数据采用复旦大学计算机学院提供的文档集，其类别数 lCI一20，文档数 lDI一19637。采用 ICTCLAS分词系统进行分词，得到特征词数 lT1约 13万。采用 TFIDF对所有文档进行加权：

研究结论

算法有效性实验表明，上述方法选取的特征词能够有效区分不同类别的文档；对比实验表明，上述方法所选取的特征词的分类能力优于其他现有方法，该方法是一种高效的文本特征选取方法
　　

学习心得
　　上一篇是同一个作者采用关键词提取，本文是用特征提取研究，运用的数据集、语义间的距离计算和聚类都是一样的。从这篇论文感受到，第一步踏出去，后面的论文写作就要容易好多。
查看全文

相关阅读:
自定义滚动条原理
 多个轮播图或者选项卡显示在一个页面是，使用代码重用
 浮动与清除
 cni 添加网络流程分析
 《MapReduce: Simplified Data Processing on Large Cluster 》翻译
 OpenStack overview 笔记
 docker containerd shim分析
 docker containerd 中的create 容器操作
 MIT jos 6.828 Fall 2014 训练记录（lab 6）
docker containerd中的容器操作

原文地址：https://www.cnblogs.com/lkl7117/p/11255530.html