1. 什么是知识图谱
知识图谱(Knowledge Graph, 简称KG)是以图模型的方式组织知识,每一条知识都以"点-边-点"的方式组织,可以等价表示为"主-谓-宾"结构
- 知识图谱的“图谱”不是图像,而是图模型。
- 知识图谱不仅仅关注知识如何用图表达,还需要关注图谱如何获取(知识抽取)、融合(知识融合)、更新、推理(知识推理)等问题
2. 知识图谱的技术体系
知识图谱的技术体系主要有知识抽取、本体构建、知识表示、知识融合、知识众包、知识推理、知识链接,以下介绍本体构建、知识抽取、知识融合
2.1 本体建模
什么是本体?
本体是抽象的数据模型,“本体”和“实体”的关系可以类比为开发中的“类”和“方法”
本体是动态变化的:不存在静态的本体
本体建模比较灵活:概念、属性和关系有时无法确定唯一标准
举例:我是女人,是算法工程师,本体可以是人,可以是职业。
2.2 知识抽取
知识抽取包括实体抽取、关系抽取、事件抽取
- 实体抽取也就是命名实体识别,包括实体的检测(find)和分类(classify)
实体抽取在信息抽取中扮演着重要角色,主要抽取的是文本中的原子信息元素,如人名、组织/机构名、地理位置、事件/日期、字符值、金额值等
主要应用:
- 命名实体作为索引和超链接
- 情感分析的准备步骤,在情感分析的文本中需要识别公司和产品,才能进一步为情感词归类
- 关系抽取(Relation Extraction)的准备步骤
- 问答(QA) 系统,大多数答案都是命名实体
- 关系抽取通常我们说的三元组(triple) 抽取,从文本中抽取出两个或者多个实体之间的语义关系
举例:王健林谈儿子王思聪:我希望他稳重一点
关系:父子(王健林,王思聪)
- 事件抽取相当于一种多元关系的抽取
事件抽取技术是从非结构化信息中抽取出用户感兴趣的事件,并以结构化呈现给用户。事件抽取任务可分解为4个子任务: 触发词识别、事件类型分类、论元识别和角色分类任务。其中,触发词识别和事件类型分类可合并成事件识别任务。论元识别和角色分类可合并成论元角色分类任务。事件识别判断句子中的每个单词归属的事件类型,是一个基于单词的多分类任务。角色分类任务则是一个基于词对的多分类任务,判断句子中任意一对触发词和实体之间的角色关系。
2.3 知识融合
知识融合指在不同数据集中找出同一个实体的描述记录,主要目的是对不同数据源中的实体信息进行整合,形成更加全面的实体信息。
知识融合的难点:
(1)自动化的语义匹配难以达到高精度
- 字符串匹配可能会导致错误,而且漏掉相似实体
- 同义词典构建比较耗时
- 机器学习(深度学习)方法需要大量标注数据
- 数据动态性导致匹配效果不佳
(2)知识融合需要考虑数据的冲突处理
- 属性值冲突
- 逻辑冲突
3. 知识图谱目前存在的问题
(1)技术研发周期长
- 知识图谱技术栈比较长,要完全掌握需要长期积累
- 知识图谱每个技术都有很多参考文献,技术选项难
(2)人力成本高
- 知识图谱人才比较稀缺,特别是NLP人才、数据库人才和知识推理人才
- 人工智能人才普遍工资比较高,直接影响图谱开发成本
- 图谱开发需要大量数据标注,缺失高效标注工具
(3)知识图谱资源缺乏
公开的知识图谱大都为百科图谱,且关系稀疏
领域图谱开放资源稀缺,构建成本高