模型:BootEA, AlignE
AlignE和BootEA几乎一样,但是AlignE没有用bootstrapping
Introduction
存在的挑战:1.尽管一个KG的嵌入模式在过去的几年进行了广泛的探索,但是对齐方向的仍然有很多没有探索到。2.基于嵌入的实体对齐通常依赖于现存对齐的实体作为训练数据。但是,可获得先对齐好的通常只占一小部分。
为了解决上面的挑战,我们提出一个bootstrapping的方式来解决。bootstrapping在半监督学习领域广泛的使用。它通过从labeled 和 unlabeled的数据迭代地训练。受这个idea的启发。
我们的贡献有以下几点:
- 我们把实体对齐当作一个分类任务。基于KG嵌入在所有标记的和未标记的数据中寻找最大对齐可能的
- 对于对齐导向的KG嵌入,我们提出了一个基于限制的公式。对于正三元组应该得到更低的分数,对于负样本得到更高的分数。为了对难以区分的负三元组进行采样,我们提出了一种截断的均匀负采样方法。 我们还将在不同KG的三元组之间交换对齐的实体,以在统一空间中校准嵌入。
- 为了克服缺乏训练数据,我们提出了一种bootstrapping方式,更新对齐导向的embedding通过标记可能已经对齐的并且把他们迭代地加入到训练数据中。它采用全局最优化来保证精确度,并且采用对齐的方式来减少错误累积
公式
我们定义x和y可能对齐的可能性:
我们要去选择一个来得到最高对齐可能
(L_x)表示的是实体x的正确label,(1_{[.]})表示的是(1or0).
求出上面公示的( heta)很难,所以让我们考虑使已经对齐的两个实体共享一样的embedding。通过这种方式不需要任何训练就可以使已经对齐的实体拥有最大的似然估计。但是这对实体对齐是没有用的,因为它没有保存未对齐实体的任何信息。对于基于嵌入模式的实体对齐,每个KG中的内部语义信息,和不同的KG共享的语义信息是有用的信息。因此,embedding不应该只捕获对齐的likelihood,也应该捕获KG的语义信息。再者,由于之前对齐的不足,仅观察已标记的实体是不够好的。一个更好的解决方式应该是标记未标记的实体来扩大训练数据并且观察所有实体的对齐可能性。
Methodology
1. 基于对齐的KG embedding
我们的方式旨在把不同的KG编码近一个embedding空间中。这种方式可以捕获KG中的隐藏语义,并且没有符号异质性的约束。
在一个KG中,基于translation的model在KG语义上面的建模比较成功。这种方式优化margin-based ranking loss的方法来使正样例的分数低于负样例的分数。但是在2017的研究中,这个损失函数不能确保正三元组的分数绝对低,而完成转换。对于实体对齐来说,绝对低的正三元组分数有助于减少嵌入在统一空间中的漂移,并且能更好地捕获不同KG的通用语义。因此我们提出了一个新公式,
这个函数有两个理想的属性。1. 正三元组的分数较低,而负三元组的分数较高。在实验中我们设置(gamma_2 > gamma_1) 和 (gamma_1)是一个很小的正值。2. 我们有这意味着这个函数仍然保留着margin_based ranking loss的特征。
(varepsilon)截断均匀负采样
广泛使用的负采样方法使用一个任意的实体来代替头实体或者尾实体。但是这种采样的方法很容易被区分开来。所以我们采用下面的方式:
如果一个实体x要被代替,不像之前的方法在所有的实体中进行采样,我们选择在我们给定的方位内的实体集合中进行采样。具体地来说,我们选择在embedding空间中的s个最近的邻居作为候选集。.N是KG中的实体数量。
参数交换
为了利用预先对齐的实体集合来桥接不同的KG,我们在三元组中交换对齐的实体, 以在统一嵌入空间中校准KG1和KG2的嵌入。给定一个对齐的实体((x, y) in A')
2. Bootstrapping Alignment
基于嵌入的实体对齐方式通常会遭受先前对齐方式不足的困扰。 为了解决这个问题,我们利用了引导思想。 具体来说,我们将可能的对齐方式迭代地标记为训练数据,并使用它来进一步改善实体嵌入和对齐方式。
Likely Alignment Labeling and Editing
常规的bootstrapping方法通常选择最可靠的标签来标记实例。但是,由于标记的训练数据有限,因此这些方法通常无法提供高置信度的预测。 因此,标记过程可能易于出错。为了实现最大化对齐可能性并遵循一对一对齐约束的目标,我们选择通过解决以下优化问题在第t次迭代中标记对齐:
两个约束保证了是一对一的标记。
尽管对齐可能会随着时间的推移而得到改善,但标记的过程仍然会产生错误的标签,从而会误导后续的训练。再者,当我们累积不同迭代的新标签对齐时,标签冲突是不可避免的。为了提高对齐的质量以及满足一对一的约束。在我们的bootstrapping过程中,在后续的迭代过程中,一个被labeled的实体可以被重新label或者变成unlabel实体。我们应用了一个简单但是很有效的编辑技巧来实现这一方法。
在bootstrapping 过程中,新标记的对齐实体将会被检查是否带来冲突。假设对于实体x我们有两个候选标签(y, y')我们会选择对x来说提供更多的对齐似然估计的那个, 公式化来说,我们计算下面的似然区别:
从整体角度学习
为了获得已标记的和未标记的实体,我们定义一个概率分布来描述x的所有标签可能。具体来说,如果x的标签为(hat{y}),那么标签分布所有的都将集中在(hat{y})上,如果x未被标记,将为均匀分布。
给定这个分布,我们最小化下面这个负Log-likelihood公式来得到最佳的( heta)有着最高的对齐可能。
但是我们需要embedding的( heta)不仅捕获对齐的可能性,也应该捕获KG的语义信息。所以我们定义下面的公式:
3.实验细节
初始化KG的embedding基于normal分布,然后使用Ada-Grad优化算法去优化上面的公式。将所有嵌入的长度限制为1.
解式子(5)可以被转换为两幅图上的最大加权匹配问题。首先选择((x, y))来满足, 然后建一个二部图, 节点表示实体, 边的权重表示节点之间对齐的可能性。所以可以通过在二部图中找到具有最大总权重的不相交边来解决最大可能的标记对齐方式。
我们方法的复杂性,参数的数量是DM,D是embedding的维数,M是两个KG的所有实体和关系数量。