随着诸如DBPedia和FreeBase等大规模知识图谱的快速发展。知识图谱知识问答在过去几年引起了广泛注意。
KBQA: 知识图谱上的问答系统
给定自然语言(NL)形式的问题,KBQA的目标是在潜在的知识图谱上自动寻求答案。这提供了一个更加自然更加直观的方式去访问大规模的潜在的知识资源。
KBQA的主要挑战在于词汇间隔(lexical gap)。例如同样的问题可以通过多种自然语言形式进行表达,但是在知识图谱中只有一种最简洁的词汇表达。因此,将自然语言问题映射到结构化的知识图谱上不是一个简单问题。
实现KBQA的方法大致可以分为两大类:
- 语义分析(Semantic Parsing, SP)
- 信息检索(Information Retrieval, IR)
- 目前比较流行的**基于嵌入的方法(embedding based methods)**就是信息检索方法的一种。
语义分析方法
基于语义分析的方法通过构建一个将自然语言问题(NL question)转化为可以被知识图谱执行的中介逻辑形式(intermedia logic form)。传统的语义分析其需要标注好的逻辑形式作为监督(supervision),并且受制于只有少量逻辑谓词狭窄域。最近的研究通过人工编制规则(hand-craft rules)或者特征模式匹配(features schema matching),以及来自外部资源的弱监督(weak supervision from external resources来打破这种限制。
信息检索方法
基于语义分析的方法通常假定一个预定义的词汇触发器集合或规则集合,这使得这些方法能使用的领域和扩展性受到限制。信息检索方法直接借助问题所传达的信息从知识图谱上检索答案。所以信息检索方法不需要人工编制规则并且能够扩展到更大更复杂的知识图谱上。
目前多种基于嵌入的方法都展现了颇具前景的结果。这种类型的方法采用多种形式来编码 问题和知识图谱子图,并且直接在映射空间上对它们进行匹配,并且可以使用端到端的方式进行训练。
参考文献
Bidirectional Attentive Memory Networks for Question Answering over Knowledge Bases Yu Chen, Lingfei Wu, Mohammed J. Zaki, NAACL-HLT (1) 2019: 2913-2923.