zoukankan      html  css  js  c++  java
  • 篇章分析

    一、篇章分析介绍:

           (1)篇章分析:形式上互相链接、语义上前后连贯的句子序列。

           (2)篇章内容:

                

            这三种数据都属于篇章范畴内容,一些影评数据等也属于篇章内容。

    二、篇章分析的主要任务:

    (1)篇章主题拆分(基础分析)

    (2)内容标签:给文档打上能够体现关键信息的标签

    (3)自动摘要:为文本生成表示其主要内容的摘要

    (4)篇章结构分析(基础分析)

    (5)情感分析:分析用户数据,分析用户情感,挖掘用户的观点

    (6)文本问答:从篇章中提取出能够回答文本中问题的片段

                 

    三、篇章分析应用:

    (1)内容标签:标签概念比较广泛,在具体的应用场景中需求的标签也是不一样的,标签细粒度的划分下去能产生很多的标签,以及不同维度的标签,

            例如实体、事件、关键词等标签,应用范围非常广泛。

                

    内容标签主要作用信息展示和标签聚合。

    信息展示:可以通过直接浏览标签词进而引动用户是否观看该内容,减少浪费用户时间。

    标签聚合:将标签一致的关键词进行聚合之后,用户就可以对某一话题进行非常深入的理解。

                 

    内容标签主要作用个性化推荐和内容建模。

    个性化推荐:用户搜索的内容以及浏览过的文章,通过标签技术提取主要的兴趣点,从而建立用户画像。

    内容建模:通过标签对内容建模,进而提取出文章中的关键信息标签。用户画像和内容模型进行精准匹配就可以进行非常好的个性化推荐。

                  

    建立标签体系:这个需要结合具体的业务场景进行不同需求的标签体系建立,下面的例子左侧是建立的标签体系,右侧是不同内容计算出的具体标题下的内容标签,主题标签、话题标签、实体标签。

                  

    构建面向标签的知识图谱:将上面的标签构建成知识图谱,以便寻找到主题标签、话题标签、实体标签的关联关系,后期单独的沉淀一篇文档。

                  

     基于大数据分析构建知识图谱:

    实体标签挖掘通过核心实体型抽取、长尾实体型抽取、新实体型抽取;

    话题标签通过实体型话题抽取、普通话题抽取、时效性话题抽取;需要结合具体的业务进行标签的构建。

                   

    标签计算:主题分类目前采用神经网络技术,第一层,抽取简单的原始特征,第二层,通过embedding或者cnn,lstm等构造表示层,第三层,计算主题与文章的相似度。

                   优点:天然的支持多标记

                    

    通用标签:主要用于内容中的实体和话题,高频标签主要基于语义的相似度计算,可以计算出内容中不出现的关键词作为标签;中低频标签主要通过词频、词汇信息、句法结构、篇章信息等特征,通过gbdt算法进行特征排序,生成中低频标签,最终通过两种策略的融合。

                    

    (2)情感分析:对(文本的)观点、情感、情绪和评价进行分析计算

            背景:近几年,随着互联网快速的发展,服务评论、商品评论、社交评论等剧增,这些数据有很大的商业价值,影响消费决策和舆情分析,可以让我们更加清晰的了解产品。

                    

           情感分析:主要可以拆分成情感分类、观点挖掘;

           情感分类可以判断情感的极性,积极,消极,中性等;

           观点挖掘主要包括观点对象、观点维度、情感倾向、观点持有者、时间,前三者是需要重点关注的,后两个比较容易获得。

    • 情感分类方法:这个实现还是比较容易的,很多方法可以实现其功能。
            
    • 观点抽取:这个实现需要具体在业务中尝试一下。
           

                   观点聚类:主要通过聚类、语法分析、搭配抽取等进行观点词表的建立;
                   观点抽取:一方面,基于情感搭配词表,进行语义的匹配,准确率高,但是覆盖率有限;另一方面,基于语义相似度计算,可以抽取出相近的词语。

    •  观点摘要:主要综合了情感分类、观点抽取、观点挖掘的一些技术,获得一个整体的应用技术。通过一句话推荐理由,目标是为实体对象,生成具有吸引力,差异性大的推荐理由。例如,餐厅实体具有大量的评论,观点摘要的目标是生成这些评论的概括性描述。

                  

                   观点摘要实现策略:首先将大量的评论数据进行情感分类,主要关注正向情感极性的词语,将这些词语排序后加入候选集合,取top几进行句子的融合,作为最终的推荐结果。

    (3)自动摘要:
                  背景:大量的信息展现出来,需要我们快速的对信息进行概览和摘要,节省用户的时间,提升用户体验。
                  基本原理:对海量内容进行提炼和总结;通过简洁、直观的摘要来概括内容关注的主要内容;方便用户快速了解和理解海量的内容。
                  主要作用:便捷信息浏览;获得信息满足;进而选择是否进行信息的阅读和浏览,增强用户的体验,节省用户的时间。
                 
                  自动摘要可以分成一下几种情况:
                 
                  面向抽取式和压缩式摘要的策略:抽取是从原文中选取若干的句子,形成摘要;压缩在抽取的基础上,进行一定程度的简写,去除辅助成分,使得摘要更加的凝炼。
                 
                 典型摘要计算流程:分析文档的单词、句子、段落等结构信息,进行文档句子的重要性打分,得到句子排序;考虑句子分数和句子的冗余度,选择一些句子,通过句子的修改,压缩,融合形成摘要。

                 新闻摘要实例:分析文章中的主要事件、关键词等,其中考虑标题和首句的重要性,进行句子排序,摘要生成。广泛用于用户资讯相关的产品。
                                 
                 篇章主题摘要实例:对篇章进行主题的划分,一个篇章划分成多个子话题,形成篇章整体摘要;为每个子话题生成摘要;保证了主题和子主题都存在摘要;如下所示:
                                 
               问答摘要实例:主要原理计算候选问题和query的相关性;
                                   基于词语对齐相关性:计算问题中的单词和候选片段中单词的相关性(其中可以发现天空和蓝色和散射现象相关性较强,推荐了散射的内容);
                                   基于dnn语义对齐的相关性方法:学习问题和句子的语义表示,计算语义相似度,确定候选句子是否合适作为候选句                          

  • 相关阅读:
    mysql函数操作(5)
    mysql函数操作(4)
    mysql函数操作(3)
    mysql函数操作(2)
    mysql函数操作
    绑定列
    iOS-Xcode解决【workspace integrity couldn't load project'】
    iOS-常用的两个弹簧动画pop
    iOS-实现后台长时间运行
    iOS-xcconfig环境变量那些事(配置环境的配置)
  • 原文地址:https://www.cnblogs.com/limingqi/p/14410937.html
Copyright © 2011-2022 走看看