Notes | 知识图谱介绍与Neo4J实战

zoukankan html css js c++ java

Notes | 知识图谱介绍与Neo4J实战
[github]

0. 定义

知识图谱本质上是语义网络（Semantic Network）的知识库

==> 从实际应用的角度出发，可以简单地把知识图谱理解成多关系图（Multi-relational Graph）

图

图（Graph）是由节点（Vertex）和边（Edge）来构成，多关系图一般包含多种类型的节点和多种类型的边。实体（节点）指的是现实世界中的事物比如人、地名、概念、药物、公司等，关系（边）则用来表达不同实体之间的某种联系，比如人-“居住在”-北京、张三和李四是“朋友”、逻辑回归是深度学习的“先导知识”等等。

Schema

限定待加入知识图谱数据的格式；相当于某个领域内的数据模型，包含了该领域内有意义的概念类型以及这些类型的属性
- 作用：规范结构化数据的表达，一条数据必须满足Schema预先定义好的实体对象及其类型，才被允许更新到知识图谱中
- 例：
- ==> 基于该Schema构建的知识图谱中仅可含作品、地方组织、人物；其中作品的属性为电影与音乐、地方组织的属性为当地的商业（eg：饭店、俱乐部等）、人物的属性为歌手
1. 数据来源
1. 业务本身的数据。这部分数据通常包含在公司内的数据库表并以结构化的方式存储，一般只需要简单预处理即可以作为后续AI系统的输入；
2. 网络上公开、抓取的数据。（难点）这些数据通常是以网页的形式存在所以是非结构化的数据，一般需要借助于自然语言处理等技术来提取出结构化信息。例如：
  Bill Gates和Malinda Gate的关系就可以从非结构化数据中提炼出来，比如维基百科等数据源。
  
  左边是一段非结构化的英文文本，右边是从这些文本中抽取出来的实体和关系。
2. 相关技术

在构建类似的图谱过程当中，主要涉及以下几个方面的自然语言处理技术：

2.1 实体命名识别（NER, Name Entity Recognition）
- 目标：从文本里提取出实体并对每个实体做分类/打标签；
- 举例：下述示例图文本里，提取出实体-“NYC”，标记实体类型为 “Location”；同理，提取出“Virgil's BBQ”，标记实体类型为“Restarant”。
2.2 关系抽取（RE, Relation Extraction）
- 目标：通过关系抽取技术，把实体间的关系从文本中提取出来；
- 举例：实体“hotel”和“Hilton property”之间的关系为“in”；“hotel”和“Time Square”的关系为“near”。
2.3 实体统一（ER, Entity Resolution）
- 目标：有些实体写法上不一样，实际指向同一个实体 ==> 减少实体的种类，降低图谱的稀疏性（Sparsity）；
- 举例：“NYC”和“New York”表面上是不同的字符串，实际指的都是纽约这个城市，需要合并。
2.4 指代消解（Coreference Resolution）
- 目标：确认文本中出现的“it”, “he”, “she”等代词的确切实体指向，在下述图例中，两个被标记出来的“it”都指向“hotel”这个实体。
3. 知识图谱的存储

主要有两种存储方式：
- 基于RDF的存储；
- 基于图数据库的存储。
RDF重点在数据的易发布以及共享，存储三元组，无属性；图数据库则把重点放在了高效的图查询和搜索，包含属性。

对于RDF的存储系统，Jena或许一个比较不错的选择。

对于图数据库，Neo4J系统目前仍是使用率最高的图数据库，它拥有活跃的社区，系统本身的查询效率高，唯一的不足是不支持准分布式。

OrientDB和JanusGraph（原Titan）支持分布式，但这些系统相对较新，社区不如Neo4j活跃。

Neo4J实战

下载地址

教程参考

参考上述教程的实践笔记：

Neo4J分为社区版和企业版，企业版在横向扩展、权限控制、运行性能、HA等方面都比社区版好，适合正式的生产环境，普通的学习和开发采用免费社区版就好。

1. 首先，我们删除数据库中以往的图，确保一个空白的环境进行操作：
MATCH (n) DETACH DELETE n
这里，MATCH是匹配操作，而小括号()代表一个节点node（可理解为括号类似一个圆形），括号里面的n为标识符。

2. 接着，我们创建一个人物节点：
CREATE (n:Person {name:'John'}) RETURN n
CREATE是创建操作，Person是标签，代表节点的类型。花括号{}代表节点的属性，属性类似Python的字典。这条语句的含义就是创建一个标签为Person的节点，该节点具有一个name属性，属性值是John。

3. 我们继续来创建更多的人物节点，并分别命名：
CREATE (n:Person {name:'Sally'}) RETURN n CREATE (n:Person {name:'Steve'}) RETURN n CREATE (n:Person {name:'Mike'}) RETURN n CREATE (n:Person {name:'Liz'}) RETURN n CREATE (n:Person {name:'Shawn'}) RETURN n
如图所示，6个人物节点创建成功

4. 接下来创建地区节点
CREATE (n:Location {city:'Miami', state:'FL'}) CREATE (n:Location {city:'Boston', state:'MA'}) CREATE (n:Location {city:'Lynn', state:'MA'}) CREATE (n:Location {city:'Portland', state:'ME'}) CREATE (n:Location {city:'San Francisco', state:'CA'})
可以看到，节点类型为Location，属性包括city和state。

如图所示，共有6个人物节点、5个地区节点，Neo4J贴心地使用不用的颜色来表示不同类型的节点。

5. 接下来创建关系
MATCH (a:Person {name:'Liz'}), (b:Person {name:'Mike'}) MERGE (a)-[:FRIENDS]->(b)
这里的方括号[]即为关系，FRIENDS为关系的类型。注意这里的箭头-->是有方向的，表示是从a到b的关系。如图，Liz和Mike之间建立了FRIENDS关系，通过Neo4J的可视化很明显的可以看出：

6. 关系也可以增加属性
MATCH (a:Person {name:'Shawn'}), (b:Person {name:'Sally'}) MERGE (a)-[:FRIENDS {since:2001}]->(b)
在关系中，同样的使用花括号{}来增加关系的属性，也是类似Python的字典，这里给FRIENDS关系增加了since属性，属性值为2001，表示他们建立朋友关系的时间。

7. 接下来增加更多的关系
MATCH (a:Person {name:'Shawn'}), (b:Person {name:'John'}) MERGE (a)-[:FRIENDS {since:2012}]->(b) MATCH (a:Person {name:'Mike'}), (b:Person {name:'Shawn'}) MERGE (a)-[:FRIENDS {since:2006}]->(b) MATCH (a:Person {name:'Sally'}), (b:Person {name:'Steve'}) MERGE (a)-[:FRIENDS {since:2006}]->(b) MATCH (a:Person {name:'Liz'}), (b:Person {name:'John'}) MERGE (a)-[:MARRIED {since:1998}]->(b)
如图，人物关系图已建立好，有点图谱的意思了吧？[有呀!]

8. 然后，我们需要建立不同类型节点之间的关系-人物和地点的关系
MATCH (a:Person {name:'John'}), (b:Location {city:'Boston'}) MERGE (a)-[:BORN_IN {year:1978}]->(b)
这里的关系是BORN_IN，表示出生地，同样有一个属性，表示出生年份。

如图，在人物节点和地区节点之间，人物出生地关系已建立好。

9. 同样建立更多人的出生地
MATCH (a:Person {name:'Liz'}), (b:Location {city:'Boston'}) MERGE (a)-[:BORN_IN {year:1981}]->(b) MATCH (a:Person {name:'Mike'}), (b:Location {city:'San Francisco'}) MERGE (a)-[:BORN_IN {year:1960}]->(b) MATCH (a:Person {name:'Shawn'}), (b:Location {city:'Miami'}) MERGE (a)-[:BORN_IN {year:1960}]->(b) MATCH (a:Person {name:'Steve'}), (b:Location {city:'Lynn'}) MERGE (a)-[:BORN_IN {year:1970}]->(b)
建好以后，整个图如下

10. 至此，知识图谱的数据已经插入完毕，可以开始做查询了。我们查询下所有在Boston出生的人物
MATCH (a:Person)-[:BORN_IN]->(b:Location {city:'Boston'}) RETURN a,b
结果如图

11. 查询所有对外有关系的节点
MATCH (a)-->() RETURN a
注意这里箭头的方向，返回结果不含任何地区节点，因为地区并没有指向其他节点（只是被指向）

12. 查询所有有关系的节点
MATCH (a)--() RETURN a
结果如图

13. 查询所有对外有关系的节点，以及关系类型
MATCH (a)-[r]->() RETURN a.name, type(r)
结果如图

14. 查询所有有结婚关系的节点
MATCH (n)-[:MARRIED]-() RETURN n
结果如图

15. 创建节点的时候就建好关系
CREATE (a:Person {name:'Todd'})-[r:FRIENDS]->(b:Person {name:'Carlos'})
结果如图

16. 查找某人的朋友的朋友
MATCH (a:Person {name:'Mike'})-[r1:FRIENDS]-()-[r2:FRIENDS]-(friend_of_a_friend) RETURN friend_of_a_friend.name AS fofName
返回Mike的朋友的朋友：

17. 增加/修改节点的属性
MATCH (a:Person {name:'Liz'}) SET a.age=34 MATCH (a:Person {name:'Shawn'}) SET a.age=32 MATCH (a:Person {name:'John'}) SET a.age=44 MATCH (a:Person {name:'Mike'}) SET a.age=25
这里，SET表示修改操作

18. 删除节点的属性
MATCH (a:Person {name:'Mike'}) SET a.test='test' MATCH (a:Person {name:'Mike'}) REMOVE a.test
删除属性操作主要通过REMOVE

19. 删除节点
MATCH (a:Location {city:'Portland'}) DELETE a
删除节点操作是DELETE

20. 删除有关系的节点
MATCH (a:Person {name:'Todd'})-[rel]-(b:Person) DELETE a,b,rel
查看全文

相关阅读:
VS 格式化代码 Ctrl + K, Ctrl + F
VS NuGet使用
 VS书签的应用
 ASP.Net简单的交互案例
 英文书也没有那么难，跟着例子做，挺有意思的
 .Net强类型视图
 .Net视图机制
 .Net MVC小尝试
 ASP.Net MVC默认目录结构
 .Net中常用的几种ActionResult