1、领域聚合常识图构建:从ConceptNet构造域聚合图。(ConceptNet中的概念是unigram单个的单词或ngram短语。)
- ConceptNet有大约3400万条边,我们首先从中提取一个子集的边。
- 从数据集中所有领域的训练文档中,首先提取出所有唯一的名词、形容词和副词的集合。这些提取出来的单词被视为种子,用来将ConceptNet过滤成子图。
- 从G中提取到任何种子距离为1的所有三元组,得到一个子图G′=(V′,E′,R′),由此,这个子图将包含跨越所有领域的概念以及概念间的链接。
- 参考"An open multilingual graph of gen- eral knowledge. "构造域聚合图.
- ConceptNet是一个知识图谱,其中自然语言单词和短语通过带标签(表示边的类型)和权重(表示边的可信程度)的边相互连接。将ConceptNet与词嵌入结合(例如,word2vec),有助于词的相关性评价(使得相关的词的嵌入更接近)。
- ConceptNet中的图结构化知识对于NLP学习算法特别有用,尤其是基于词嵌入的算法,可以使用ConceptNet构建比分布式语义更有效的语义空间。
2、知识图预训练
- 为了在任务中使用G′,首先要计算其节点的表示。通过训练一个图自动编码器模型来执行链路预测。该模型以G′中E′中的一组不完整的边ˆE′作为输入,然后给可能的边(c1、r、c2)赋值,确定这些边在E′中的可能性有多大。图形自动编码器模型包括:一个R-GCN实体编码器和一个DistMult评分解码器。
- 编码器模块。
- 采用了Schlichtkrull等人的关系图卷积网络(R-GCN)编码器作为图形编码器网络。该模型的强大之处在于它能够在多个推理步骤中从给定概念的局部邻域中积累关系证据。
- 基于邻域的卷积特征变换过程始终确保不同的域通过基本概念相互连接,并相互影响以创建丰富的域聚合特征向量。
- 解码器模块。
- 使用DistMult因子分解(Yang et al.,2014)作为评分函数。
- 训练。
- 使用负采样训练图形自动编码器模型(Schlichtkrull等人,2018)。
- 编码器模块。
3、常识图特征提取:训练后的图形自动编码器模型可用于特征提取。
- 为特定文档x提取特定文档常识图特征的方法:
- 第一步是提取文档中所有唯一的名词、形容词和副词的集合W。
- 接下来,从G′中提取一个子图,其中所有三元组的组成节点都在W中或者在W中任何一个词的半径1附近,我们称之为G′W。
- 然后通过预先训练的图自动编码器模型的编码器对G′W进行前向传递。这就为G′W中的所有唯一节点j生成特征向量hj。
- 最后,我们对G′W中所有唯一节点的特征向量hj求平均,得到文档x的常识图特征。
4、领域对抗训练
- 将从文档X(§4.3)的G′W提取的常识图特征xcg传入DANN体系结构。
- 学习图向量的编码函数,并将其表示与DANN编码器相结合,得到文档x的最终特征表示。