http://www.cbdio.com/BigData/2016-03/03/content_4675344.htm
《刘知远:面向大规模知识图谱的表示学习技术》
video1:大规模百科图谱构建
如何从零开始构建一个中文、通用、百科知识图谱?
百科知识图谱:是一类专门从百科类网站中抽取知识构建而成的知识图谱
百科类网站中的页面和纯文本页面的区别:
- 每个页面分别围绕一个实体进行全方面的介绍
- 内容由众包编辑,质量相对较高
- 页面格式统一,包含了许多半结构化的数据,方便抽取
典型代表:
- DBpedia
- YAGO
DBpedia构建方法
知识图谱中的关系
- 实体和实体(仅仅从百科知识网站抽取知识,只能抽取到实体和实体的关系)
- 概念和概念(大量的人工,infobox)
- 实体和概念(大量的人工,infobox)
YAGO构建方法
实体和概念关系的自动获取
- Wikipedia Category System
-
- conceptual categories eg:Jay Zhou Albums
- administractive purposes
- relational information eg:1879 births
- thematic vicinity eg:Physics
- Identifying Conceptual Categories
-
- shallow linguistic of the category name
- if the head of the categogy name is a plural word,the category is most like a conceptual category
- shallow linguistic of the category name
-
概念与概念关系的自动获取
- 将WordNet作为上层本体
- 建立Wikipedia conceptual categories与WordNet概念之间的subclassof关系
(缺点:虽说关系抽取是自动的,但由于利用了英语的语言特性,无法适用于其他语言,比如中文)
总结:当前百科知识图谱构建的局限性
- 人工代价大
-
- 本体(概念-概念)通过人工构建
- 实体分类通过人工指定方式构建
-
- 利用了语言的特性
-
- 无法适用于其他语言
-
- 仅对百科类网站中的半结构化数据进行了抽取,未对数据进行进一步加工
-
- 编写 不规范,格式不统一
- 存在内容缺失情况
-
普适型的中文通用百科知识图谱构建方法
http://blog.openkg.cn/%E5%BE%90%E6%B3%A2-%E7%99%BE%E7%A7%91%E7%9F%A5%E8%AF%86%E5%9B%BE%E8%B0%B1%E6%9E%84%E5%BB%BA/
http://www.sohu.com/a/190460034_642762