1. 前言
今天介绍一篇2017年的论文《Distant Supervision for Relation Extraction with Sentence-level Attention and Entity Deions》,这篇论文主要是介绍通过句子层面的注意力和实体知识来提高远程监督抽取关系的准确度。
2. 原理介绍
关系抽取的远程监督方法通过知识库与非结构化文本对其的方式,自动标注数据,解决人工标注的问题。但是,现有方法存在无法选择有效的句子、缺少实体知识的缺陷。
- 无法选择有效的句子是指模型无法判断关系实例对应的句子集(bag)中哪个句子是与关系相关的,在建模时能会将不是表达某种关系的句子当做表达这种关系的句子,或者将表达某种关系的句子当做不表达这种关系的句子,从而引入噪声数据。
- 缺少实体知识,例如“[Nevada] then sanctioned the sport , and the U.F.C. held its first show in [Las Vegas] in September 2001. ”如果不知道 Nevada 和 Las Vegas 是两座城市,则很难判断他们知识是地理位置上的包含关系。
论文的主要方法分为三部分:句子特征提取、实体表示和bag特征提取。
2.1 句子特征提取
句子特征提取结构如下:
- 使用词向量和位置向量相连接作为单词表示,句子的词表示序列作为模型的输入;
- 使用卷积神经网络对输入层提取特征,然后Piecewise Max-pooling,形成句子的特征表示。
- Piecewise Max-pooling:传统的max-pooling的作用是提取最重要的特征,而Piecewise Max-pooling是把向量分为几段,然后分别提取每段的max特征,方便捕捉更多的特征信息,给后面微调提供支持。
2.2 实体表示
实体表示在词向量的基础上,使用实体描述信息对向量表示进行调整,形成最终的实体向量表示。最终的实体向量 = 实体表示词向量 + 实体描述信息
模型主要思想是,使用CNN对实体的描述信息进行特征提取,得到的特征向量作为实体的特征表示,模型的训练目标是使得实体的词向量表示和从描述信息得到的实体特征表示尽可能接近。
2.3 bag特征提取
bag特征提取模型的关键在句子权重学习,在得到bag中每个句子的权重后,对bag中所有句子的特征向量进行加权求和,得到bag的特征向量表示。
bag特征提取模型如下图:
模型中用到了类似TransE的实体关系表示的思想:(e_1+r=e_2)。使用(r=e_2-e_1)作为实体间关系信息的表达,与句子特征向量相拼接,进行后续的权重学习。
- 使用bag中的所有句子的特征向量表示,结合(r=e_2-e_1)方式得到的关系表示,作为模型的输入。
- 利用attention机制学习权重矩阵,得到每个句子的权重。
- 对句子进行加权求和,得到bag的最终表示。
3. 总结
这篇论文在当时提时是SOTA的表现。总结下论文的主要内容。
- 引入句子层面的注意力模型来选择一个bag中的多个有用的句子,从而充分利用bag中的有用信息。
- 使用实体描述来为关系预测和实体表达提供背景信息。