zoukankan      html  css  js  c++  java
  • [NLP]文本摘要介绍

    一、摘要的主要分类

    文本摘要:从数据上来看,分为利用无监督数据(自动摘要)和有监督数据两种方法

    文本摘要:从获取方法上看,分为抽取式摘要(从原文中抽取多个句子组成概要)和生成式摘要(先是自然语言理解进行篇章理解,然后用自然语言生成来生成摘要​)两种方法。

    深度学习模型:BertSum,XLNet等。

    二、抽取式摘要方法

    1、基于无监督的抽取方法:page-rank

    主要处理流程:先构造图(其中一个句子是一个结点,结点之间的边是句子之间的关系),然后利用page-rank算法计算每个句子的得分score,最后根据score获取top 3/5个句子作为最终生成的摘要。

    构造图的方法:将所有的句子转换成向量(假设有100个句子),根据简单的公式计算(如余弦相似度,欧式距离)等计算句子之间的相似度,最后得到一个句子相似度矩阵(100*100)。

    注:Page-rank:是一张有向图,结点是一个网页,边是两个网页之间的关系(这个关系是可进可出的,比如说A,B两个网页,A指向B表示根据B可以得到A的网址,或者说B比A更高一个层级是更重要的网页),每个结点的得分是指向它的结点的数量以及指向它的结点的权重两个方面来确定。

    具体计算过程如下:

    假设有三个点,A指向B,B指向C,C指向A和B,分别计算A、B、C的score。(设d=0.85)

     

     迭代算法:不断迭代计算A、B、C的得分,当所有得分不再变化时,则迭代停止。


    2、基于有监督的抽取式摘要方法:根据训练数据,提取特征向量,构造机器学习模型。

    三、生成式摘要方法

    基于有监督的生成式摘要方法:使用深度学习模型,如seq2seq模型等来做。

  • 相关阅读:
    list转map,set,使用stream进行转化
    使用thymeleaf模板实现博客评论的异步刷新
    python 字典元组集合字符串
    python列表解析补充:
    python列表解析
    springboot框架中集成thymeleaf引擎,使用form表单提交数据,debug结果后台获取不到数据
    配置github——每次提交后使contributions有记录(有小绿格子)
    github浏览器无法访问,并且idea无法push项目
    互联网协议入门
    http协议入门---转载
  • 原文地址:https://www.cnblogs.com/mj-selina/p/13251988.html
Copyright © 2011-2022 走看看