zoukankan      html  css  js  c++  java
  • 转:A Survey On Relation Extraction

    一、关系抽取简介

    信息抽取的主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据(Structuring),关系抽取是其重要的子任务,主要负责从文本中识别出实体(Entities),抽取实体之间的语义关系。

    如:句子“Bill Gates works at Microsoft Inc.”中包含归属关系Person-Affiliation实体对(Bill GatesMicrosoft Inc),又如:

     

    关系抽取的结构化数据可以用于自动问答系统、生物信息、知识推理、文摘等众多方面。

    关系抽取任务常用的评测数据集当属Automatic Content Extraction (ACE),现已被归入Text Analysis Conference,作为知识库生成(Knowledge Base Population, KBP)的重要子任务。

    二、主要研究方法

    1)有指导的学习方法(Supervised approaches)

    又称有监督的学习方法,主要包括两大类:基于特征向量的学习方法(feature-based)和基于核函数的学习方法(kernel-based)。这类方法将关系抽取任务看作一个分类问题,首先需要人工标注大规模训练语料库,然后在已标注好的语料库基础上进行特征抽取和选择,通过利用不同的机器学习算法训练学习分类模型,用于抽取新的实体对。

    处理逻辑如下:对于有指导的学习方法,无论是基于特征向量的学习算法,还是基于核函数的学习算法,主要依赖于实体对上下文中的各种词法、句法、语义等信息,或者背景知识,提高算法的性能。所以,如何挖掘和有效使用更多对关系抽取更加有用的词法、句法、语义等特征,即特征提取和特征选择两个关键过程已经成为基于有指导的关系抽取方法的研究重点。

    另外,近两年有人提出一种Distant Supervised的方法,它基于这样一种假设:如果已知两个实体存在特定的语义关系,那么包含实体对的句子在某种程度上就存在表征二者语义关系的作用。这种方法可以较好的融入现有的知识库,如wikipedia(infobox)、本体或者人工标注小规模实体对,将这些高质量关系实体对作为种子,从web中挖掘包含已知实体对的大规模文本,作为自动标注的语料库,然后使用Supervised的方法解决关系抽取问题。个人感觉这是个听有意思且实用的思路,尤其面对大规模数据挖掘问题,据我所知,企业界对此方法也屡试不爽,后续计划抽时间专门写一篇关于Distant Supervised的文章~

    2)半指导的学习方法(Semi-supervised approaches)

    又称半监督的学习方法或弱指导的学习方法,主要是基于种子的Bootstrapping方法,该方法首先需要根据预定义好的关系类型,人工构造对应的关系实例作为种子;然后,通过模式学习方法,迭代地生成关系描述模式集。

    处理逻辑如下:

    具有代表性的工作有:DIPRE、Snowball、KnowItAll、TextRunner,对比如下:

    半指导的学习方法不需要人工标注语料库,所需要的只有构造初始关系种子集,然后利用Web或者大规模语料库信息的高度冗余性,充分挖掘对应的关系描述模式,并通过模式匹配抽取新的关系实例,准确、高效地完成关系抽取任务。但是,这种方法也存在几个关键问题,如:初始关系种子集的产生和选择方式、Pattern的组成方式、Pattern的质量评估、迭代过程的速度、高准确率低召回率等问题。

    3)无指导的学习方法(Unsupervised approaches)

    又称无监督的学习方法,这是一种自底向上的信息抽取策略,无指导的学习方法基于这样一种假设:拥有相同语义关系的实体对,它们的上下文信息较为相似,其上下文集合代表着该实体对的语义关系。

    抽取过程大体分为三部分:

    1. 实体对及其上下文信息提取;
    2. 根据上下文信息对实体对聚类;
    3. 标注各个类的语义关系,即对关系类型进行描述。

    但是,该方法产生的聚类结果一般比较宽泛,并且定义合适的类别比较困难,另外,该方法对低频的实体对处理能力有限,缺乏标准的评测语料,甚至没有统一的评价标准。

    三、多元实体关系

    又称高阶关系(Higher-order Relations),往往转化为多个二元关系处理。

    四、未来可能的研究方向

    • 关系类型自动发现:目前的研究工作主要基于人工定义的关系类型体系抽取关系实体对,扩展性较差。所以,如何自动或半自动地建立一套合理的关系类型体系仍然是一个亟待解决的问题。
    • 关系推理及冲突消解 :目前的研究工作将每种关系类型看作一个独立的处理对象,而未考虑它们之间潜在的关系,如在父子和母子关系基础上可以推理出夫妻关系,在父子关系本身可以推理出祖孙关系,等等。另外,某些关系类型的实体对之间存在一定的约束条件,如夫妻关系必须是一对一,朋友关系可以是一对多,等等。是否可以考虑使用语义网(Semantic Web)进行数据的统一表示,并在其基础上实现关系的推理和冲突消解?
    • 领域自适应的关系抽取:目前的研究工作主要面向特定的关系类型或者特定领域,使用特定的语料库,很难做到领域自动迁移,所以,是否可以搞一套领域自适应的关系抽取研究框架,即Open IE。系统可以自动发现关系类型、挖掘关系描述模式、抽取实体对?或者在已有领域标注语料库基础上,使用迁移学习(transfer learning)的方法推广到其他领域?
    • 篇章级关系抽取:目前的研究工作主要以句子级实体之间的非等价关系为研究对象,从而丢失了大量的代词参与的关系,是否可以考虑引入等价关系,即共指消解处理结果,通过实体之间等价关系和非等价关系的融合和简单推理实现篇章级实体关系抽取,提高召回率,更好地对篇章进行理解。
    • 数据可视化
    • 社交网络挖掘
    • 信息抽取的应用:垂直搜索?自动问答?知识库建设?机器翻译?文摘?篇章语义理解?
    • ... ...

    五、主要参考资料

  • 相关阅读:
    java基础(十九)IO流(二)
    java基础(十八)IO流(一)
    java基础(十七)集合(四)
    java基础(十六)集合(三)
    java基础(十五)集合(二)
    java基础(十四)集合(一)
    oracle中trim,ltrim,rtrim函数用法
    最详细的Log4j使用教程
    SAP ERP和ORACLE ERP的区别是哪些?
    PLS-00221: 'function' 不是过程或尚未定义
  • 原文地址:https://www.cnblogs.com/zhangdongdong/p/2753075.html
Copyright © 2011-2022 走看看