关于作者
王宇(1959-),男,吉林通化人,教授,主要从事数据与文本挖掘、信息资源管理研究
摘要
作者基于
关键词
自然语言处理;词频分析;主题词提取;领域特征词;共词分析
1. 引言
自然语言处理是一个比较抽象的概念,具体可以落实到词法与句法分析、语义理解、语言认知、语言表示和知识图谱等基础研究,可以应用到文本分类与聚类、信息抽取、自动文摘等许许多多的方面[15]。信息资源80%是以自然语言描述的文本形式存在的,如何从海量的文本中掌握最有效的信息?这是自然语言需要解决的问题。国内许多学者致力于中文自然语言处理的研究,早期的如董振东先生的知网[2],哈尔滨工业大学信息管理实验室的同义词词林[3],黄曾阳先生的HNC理论[4]等,都在各自的研究方向上对自然语言处理的发展做出了不同程度的贡献,及大地推动了国内自然语言处理的发展。
2. 实验内容
2.1 数据来源
在万方数据库搜索栏中输入关键词“自然语言处理”,时间选择2000~2010年,获得1021篇中文相关文献。
2.2 数据处理——基于TextRank(第3部分解释原理)提取关键词
- 文本预处理(分词和词性标注):利用中科院计算所研发的ICTCLAS分词接口进行分词和词性标注。
- 词语过滤:过滤,只保留名词、动词和形容词。接下来,过滤掉停用词。
- 统计词频:统计加权词频。结果以单链表结构保存,每个节点包括:词汇、词频、词性和索引(索引指的是,原文中该词所在的位置编码)
- 短语合并:对一些未登录(即词典中没有出现的词)采用Tseng Yuen-Hsien, Lin Chi-Jen提到的方法进行短语合并[14]
- 利用同现分析(第三部分解释原理)算出每个词的特征值得分,获取单文档的主题词,并与文献本身的关键词汇总,去重,得到最终的代表该文献的领域特征词。