zoukankan      html  css  js  c++  java
  • 论文研读

    论文名称:姜 芳、李国和、岳 翔.基于语义的文档关键词提取方法
    .

    • 研究对象
      中文文档为处理对象,通过同义词词林-计算词语间语义距离,对词语进行密度聚类,得到主题相关类,并从主题相关类中选取中心词作为关键词
    • 研究动机
      • 现有的关键词抽取算法主要有基于启发式规则的方法、基于统计的算法和基于机器学习的算法等,这些算法都有各自的缺点,这篇论文提出一种基于语义的关键词提取方法。该方法不受领域限制,不需要大规模的训练样本,并且比传统方法在准确率和召回率上有所提高。  
    • 文献综述
      •   
      研究方案设计  
      • 提取关键词
        • 利用词语间的语义距离构造网络,并采用密度聚类的方法选择关键词
      • 系统整体结构与流程
        • 提取关键词后对文档进行分词和词性标注,获得候选词语列表
        • 去除后选择与列表中的停用词后,保留形容词、副形词、名形词、成语、简称略语、习用语、动词、动语素、副动词、名动词和名词,获得词语数据集
        • 运用哈工大《同义词词林》扩展版的词语树型结构,进行编码。通过词语的对应编码可以计算出词语间的语义距离。
        • 法对词语数据集进行密度聚类,根据阈值筛选出主题相关类。
        • 计算所有主题相关类的中心词"并得到关键词集。
      • 实验
        • 人工对比实验,对其进行人工关键词提取,作为实验标准。将基于语义的关键词提取方法和基于统计的方法、最大熵模型、基于知网的方法,进行对比实验,评价标准包括准确率、召回率以及两者调和的平均值测度值。
        • 分类语料库对比实验,采用复旦大学计算机学院提供的文档集,对已标注关键词的文章,进行基于语义的关键词提取方法和基于统计的方法的对比实验
        • 打分实验,利用TF-IDF和SKEM算法对每个文档的提取结果进行打分"统计每个分值的文档百分比作为实验结果
    • 使用数据集
      《人民日报》1988年1月语料库中选取20篇文档作为实验语料,对其进行人工关键词提取,作为实验标准
    • 研究结论
      • 相对于传统关键词提取方法,该方法不受领域限制,不需要大规模的训练样本,并且比传统方法在准确率和召回率上有所提高。  
    • 学习心得
        对传统关键词进行改进,在关键词提取方面增加了哈工大的《同义词词林》,设计了明确的算法逻辑流程,最后采用各种实验来说明自己算法比传统算法的优势
  • 相关阅读:
    依赖反转Ioc和unity,autofac,castle框架教程及比较
    webform非表单提交时防xss攻击
    tfs分支操作
    防火墙入站出站规则配置
    前端流程图jsplumb学习笔记
    Js闭包学习笔记
    word中加入endnote
    Rest概念学习
    DRF的版本、认证、权限
    博客园自动生成目录
  • 原文地址:https://www.cnblogs.com/lkl7117/p/11247153.html
Copyright © 2011-2022 走看看