zoukankan      html  css  js  c++  java
  • 摘要提取算法——本质上就是pagerank,选择rank最高的句子作为摘要,如果结合word2vec应该有非常好的效果

    最近需要做一些文本摘要的东西,选取了TextRank(论文参见《TextRank: Bringing Order into Texts》)作为对比方案,该方案可以很方便的使用Python相关库进行实现。

    下面介绍如何利用Python实现一个简单的文本摘要工具。

    Demo


    【前期准备】:

    1. Python 2.7.x - 当然也推荐Python3,少掉很多编码问题。信仰选2!
    2. jieba分词 - 最好的python中文分词工具(最新清华出了个THULAC,有兴趣的可以试试,看对比效果似乎更好)
    3. networkx - 一个非常棒的复杂网络工具库

    【背景知识】

    利用Textrank做文本摘要的核心思想很简单,和著名的网页排名算法PageRank类似:每个句子可以作为一个网络中的节点(称为节点i),与之相连的其他节点(例如节点j)会对其重要度产生一定的“贡献值”,该“贡献值”与节点j自身的重要度以及i、j之间的相似度(也可以称为连接的强度)有关,只需要对整个图进行迭代直至收敛,最后各节点的分值即是该句子的重要性,根据重要性排序后选取前k个句子即可作为摘要。

    xxxxx

    摘自:http://jayveehe.github.io/2016/05/11/da_textrank/

    英文的在线提取见:http://textsummarization.net/text-summarizer

  • 相关阅读:
    纪念又一次ak
    hdu5618
    bzoj3393
    bzoj3438
    [JSOI2007]建筑抢修
    [CQOI2014]数三角形
    [BZOJ2662][BeiJing wc2012]冻结
    [NOIP2015]运输计划
    [ZJOI2006]超级麻将
    [APIO2009]抢掠计划
  • 原文地址:https://www.cnblogs.com/bonelee/p/7168672.html
Copyright © 2011-2022 走看看