论文名称:姜 芳,李国和,岳 翔.基于语义的文档特征提取研究方法.
- 研究对象
中文文本特征词 - 研究动机
- 一种基于语义距离的文档特征提取方法。首先利用基于语义距离的方法提取主题相关词,然后利用信息增益算法从主题相关词中提取出文档特征。该方法首先利用语义距离准确缩小特征范围,之后再利用信息增益算法高效地提取文档特征
- 文献综述
- 基于语义的文档特征提取方法
- 运用哈工大《同义词词林》扩展版的词语树型结构,进行编码。通过词语的对应编码可以计算出词语间的语义距离。
- 得到词语语义距离后,对所有词语进行聚类
-
-
完成聚类后,选择聚类结果中包含词语数据最多的 N个子集作为提取特征的主题相关类
-
得到主题相关类集合 M(D)后,通过信息增益方法,对词语进行评价,选取若干分类效果最好的词语作为特征词
-
-
系统整体结构与流程
- 对文档进行分词和词性标注,获得候选词语列表
- 去除后选择与列表中的停用词后,获得分词数据集
-
判断分词结果集 D(w)中的词语是否为《同义词词林 》未登录词 ,如为《同义词词林 》未登录词 ,则将其加入未登录词集合 u(w)
-
- 计算词语语义距离
-
对分词结果集 D(w)中登录词进行密度 聚类 ,确定主题相关类集合 M(D)
-
对主题相关类集合 M(D)和未登录词集合U(W)中的特征进行筛选 ,得 到代表这类文档 的特征集合 D(Wt)
- 实验验证
-
对文档集D中的所有文档进行统一加权后 ,采用 5一交叉验证实验 ,即所有文档随机均分成5组 ,1组为测试集 ,其他4组为训练集,共进行5次实验,最后将分类评价指标的平均值作为特征词选取的依据
- 效果评价标准
-
宏 F值和微 F值综合了召回率和正确率,因此采用宏 F值和微 F值对特征词选取进行评价
-
- 特征词分类能力有效性实验,根据基于语义距 离的特征词提取方法 (SFE)对 每一特征词 的分 类能力进行评估 ,并根据 评估值从大到小对所有特征词进行排序
- 文本特征选取方法对比实验,分别采用基于语义距离的特征选取方法sFE、基 于知 网概念的特征提取方法 BHN、基于本体论的特征提取方法BOL、文档频 DF、信息增益 IG、互信息熵 MI、统计量(CHI)、文档证据权 wET、期 望交叉熵 ECE和 DIS进 行文档分类效果对 比实验
- 使用数据集
实验数据采用复旦大学计算机学院提供的文档集,其类别数 lCI一20,文档数 lDI一19637。采用 ICTCLAS分词系统进行分词 ,得 到特征词数 lT1约 13万 。采用 TFIDF对所有文档进行加权 :
- 研究结论
- 算法有效性实验表明,上述方法选取的特征词能够有效 区分不同类别 的文档 ;对 比实验表明,上述 方法所选取的特征词的分类能力优于其他现有方法,该方法是一种高效 的文本特征选取方法
- 算法有效性实验表明,上述方法选取的特征词能够有效 区分不同类别 的文档 ;对 比实验表明,上述 方法所选取的特征词的分类能力优于其他现有方法,该方法是一种高效 的文本特征选取方法
- 学习心得
上一篇是同一个作者采用关键词提取,本文是用特征提取研究,运用的数据集、语义间的距离计算和聚类都是一样的。从这篇论文感受到,第一步踏出去,后面的论文写作就要容易好多。