论文研读 - 走看看

zoukankan html css js c++ java

论文研读
论文名称：姜芳、李国和、岳翔.基于语义的文档关键词提取方法
.
- 研究对象
  
  中文文档为处理对象，通过同义词词林-计算词语间语义距离，对词语进行密度聚类，得到主题相关类，并从主题相关类中选取中心词作为关键词
- 研究动机
  
  现有的关键词抽取算法主要有基于启发式规则的方法、基于统计的算法和基于机器学习的算法等，这些算法都有各自的缺点，这篇论文提出一种基于语义的关键词提取方法。该方法不受领域限制，不需要大规模的训练样本，并且比传统方法在准确率和召回率上有所提高。　　
- 文献综述
  
  　　
  
  研究方案设计　　
  
  提取关键词
  
  利用词语间的语义距离构造网络，并采用密度聚类的方法选择关键词
  
  系统整体结构与流程
  
  提取关键词后对文档进行分词和词性标注，获得候选词语列表
  
  去除后选择与列表中的停用词后，保留形容词、副形词、名形词、成语、简称略语、习用语、动词、动语素、副动词、名动词和名词，获得词语数据集
  
  运用哈工大《同义词词林》扩展版的词语树型结构，进行编码。通过词语的对应编码可以计算出词语间的语义距离。
  
  法对词语数据集进行密度聚类，根据阈值筛选出主题相关类。
  
  计算所有主题相关类的中心词"并得到关键词集。
  
  实验
  
  人工对比实验，对其进行人工关键词提取，作为实验标准。将基于语义的关键词提取方法和基于统计的方法、最大熵模型、基于知网的方法，进行对比实验，评价标准包括准确率、召回率以及两者调和的平均值测度值。
  
  分类语料库对比实验，采用复旦大学计算机学院提供的文档集，对已标注关键词的文章，进行基于语义的关键词提取方法和基于统计的方法的对比实验
  
  打分实验，利用TF-IDF和SKEM算法对每个文档的提取结果进行打分"统计每个分值的文档百分比作为实验结果
- 使用数据集
  
  《人民日报》1988年1月语料库中选取20篇文档作为实验语料，对其进行人工关键词提取，作为实验标准
- 研究结论
  
  相对于传统关键词提取方法，该方法不受领域限制，不需要大规模的训练样本，并且比传统方法在准确率和召回率上有所提高。　　
- 学习心得
  　　对传统关键词进行改进，在关键词提取方面增加了哈工大的《同义词词林》，设计了明确的算法逻辑流程，最后采用各种实验来说明自己算法比传统算法的优势
查看全文

相关阅读:
ps 快捷键
 python中== 和 is 的区别
 微信开发者工具快捷键汇总
 IDEA常用快捷键
 非前后端分离项目使用vue继承,提取公共方法和filters
Plupload上传插件中文帮助文档
 idea 提示 string template are not supported current JavaScrip Version 的解决
 nginx的分配方式
 nginx相关配置的内容
 Deepin启动界面个性化

原文地址：https://www.cnblogs.com/lkl7117/p/11247153.html