TextRank算法是一种文本排序算法,算法由谷歌的网页重要性排序算法PageRank算法改进而来。TextRank算法能够从一个给定的文本中提取出该文本的关键词、关键词组,并使用抽取式的自动文摘方法提取出该文本的关键句。二者的区别在于:PageRank算法根据网页之间的链接关系构造网络,而TextRank算法根据词之间的共现关系构造网络;PageRank算法构造的网络中的边是有向无权边,而TextRank算法构造的网络中的边是无向有权边。TextRank算法的核心公式如下,其中Wji用于表示两个节点之间的边连接具有不同的重要程度
(WS(V_{i})=(1-d)+d*sum_{v_{j}in In(V_{i})}frac{w_{ji}}{sum_{v_{k}in Out(V_{j})}w_{jk}}WS(V_{j}))
- 文献:TextRank: Bringing Order into Texts (2004)
- 作者:Rada Mihalcea and Paul Tarau
- 地址: https://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf
本文将介绍TextRank算法的基本原理,并给出Python中TextRank算法的中文文本实现模块textrank4zh的使用实例。