zoukankan      html  css  js  c++  java
  • 【关键词提取】第四篇:候选词生成(上)

    原文地址:http://www.cnblogs.com/lessmore/category/1009890.html 转载请保留本行,欢迎交流。

    目录:

    1. 第一篇:综述
    2. 第二篇:数据集、实现代码介绍
    3. 第三篇:特征设计
    4. 第四篇:候选词生成(上)
    5. 第五篇:候选词生成(下)
    6. 第六篇:性能比较

    这里使用的方法是词性标注配合模式匹配,提取名词短语。通常来说一个句子的单词会聚合成组块(chunking)短语,例如常见的名词短语组块,动词组块等。查看标注的数据集发现,大部分关键词都是名词短语组块,可以通过规则进行模式匹配高效提取这类关键词。下面将分别叙述词性标注和本文中使用的规则。

    词性标注就是给每个单词标注为名词、动词、副词等词性。对英文来说,不存在分词的问题,由标点符号分割的每个字符串自然是一个单词。英文中单词存在一些有规则的变化,例如名词单复数,动词时态等,这部分对于词性标注很好解决。还有部分单词有不同的词性,例如“process”既可以是名词,也可以是动词,需要根据上下文信息消除歧义。传统上,词性标注有基于规则和基于统计的方法。目前基于统计的方法,包括隐式马尔可夫模型、最大熵模型等标注的准确率都超过95%,我们可以放心直接使用流行的词性标注工具,词性标注错误几乎不会影响关键词提取的性能。

    本文提取名词性短语使用的正则规则是:NP=(NN│JJ)(NN)。其中NN匹配名词单复数,专有名词单复数,JJ匹配形容词及其比较级、最高级。这条规则是经验性的结论,对于为什么不加入匹配冠词、副词等问题无法一一做出合理的解释,这是实验中考虑到平衡候选词数目和召回率选取的规则。

    使用规则匹配名词短语在本文中有良好地效果,后文中会有性能指标展示,但不可避免的有巨大的局限性。首先是本文所用数据集的特点,文本短,关键词数量多,并且关键词大部分是名词性短语,这对于组块提取方法有得天独厚的优势。如果文本是通常的长文本,候选词的数目会线性增长,在通常意义下的关键词数目较少的情况下会引入更多干扰误差。其次,规则提取名词性短语不适合提取其他类型的组块,如果加入匹配介词或者动词,匹配得到的结果几乎能覆盖整个文档,造成候选词数量膨胀,带来的误差远远高于所召回寥寥无几的动词短语。由此可以看出使用词性标注模式匹配无法处理更复杂的关键词类型,也无法推广至一般的关键词自动提取场景。

  • 相关阅读:
    第三次作业-有进度条圆周率计算
    第一周作业
    24点
    Cuber Sorting
    P1827 [USACO3.4]美国血统 American Heritage
    P4387 【深基15.习9】验证栈序列
    P2058 海港
    P4017 最大食物链计数
    P2196 挖地雷
    放苹果问题
  • 原文地址:https://www.cnblogs.com/lessmore/p/ke4_candidates_a.html
Copyright © 2011-2022 走看看