zoukankan      html  css  js  c++  java
  • [NLP]文本摘要介绍

    一、摘要的主要分类

    文本摘要:从数据上来看,分为利用无监督数据(自动摘要)和有监督数据两种方法

    文本摘要:从获取方法上看,分为抽取式摘要(从原文中抽取多个句子组成概要)和生成式摘要(先是自然语言理解进行篇章理解,然后用自然语言生成来生成摘要​)两种方法。

    深度学习模型:BertSum,XLNet等。

    二、抽取式摘要方法

    1、基于无监督的抽取方法:page-rank

    主要处理流程:先构造图(其中一个句子是一个结点,结点之间的边是句子之间的关系),然后利用page-rank算法计算每个句子的得分score,最后根据score获取top 3/5个句子作为最终生成的摘要。

    构造图的方法:将所有的句子转换成向量(假设有100个句子),根据简单的公式计算(如余弦相似度,欧式距离)等计算句子之间的相似度,最后得到一个句子相似度矩阵(100*100)。

    注:Page-rank:是一张有向图,结点是一个网页,边是两个网页之间的关系(这个关系是可进可出的,比如说A,B两个网页,A指向B表示根据B可以得到A的网址,或者说B比A更高一个层级是更重要的网页),每个结点的得分是指向它的结点的数量以及指向它的结点的权重两个方面来确定。

    具体计算过程如下:

    假设有三个点,A指向B,B指向C,C指向A和B,分别计算A、B、C的score。(设d=0.85)

     

     迭代算法:不断迭代计算A、B、C的得分,当所有得分不再变化时,则迭代停止。


    2、基于有监督的抽取式摘要方法:根据训练数据,提取特征向量,构造机器学习模型。

    三、生成式摘要方法

    基于有监督的生成式摘要方法:使用深度学习模型,如seq2seq模型等来做。

  • 相关阅读:
    数组的扩展搜集自无忧脚本
    C#简单模拟用户登录类
    C++ builder数据库连接大全
    童话故事下载地址
    如何对GridView行自动编号?
    document.execCommand() 用法说明
    兼容IE和FF的js脚本做法(比较常用)
    人民币数字转换成大写形式
    C# webBrowser 模拟登陆填充操作等(写网页注册机之类的时候要用到)
    拖动布局之保存布局页面
  • 原文地址:https://www.cnblogs.com/mj-selina/p/13251988.html
Copyright © 2011-2022 走看看