https://www.cnblogs.com/kukafeiso/p/13917946.html 引用链接
存储
对于知识图谱,需要存储所有信息只有实体和实体之间的关系
一般来说市面上有非常多的图数据库引擎可以使用
例如最热门的neo4j
图数据库与传统关系性数据库
大家可能有疑问,对于实体和实体之间的关系,是可以通过关系性数据库来存储的。
为什么需要图数据库?
按我的理解
-关系型数据库更多的关注实体和实体的属性,对关系的描述并不大看重,虽然有外键
在关系行数据库定义实体,表的数量会随着实体的数量而线性递增,如果单从实体和关系的角度分析,模型过于复杂
关系型数据库难以分布式存储,难以承受大数据
图数据库模型非常简单,就是实体和关系
图数据可以对这种简单的模型使用图算法更好的存储和检索数据
图数据非常容易做到分布式,适合大数据的存储
融合(构建)
需要构建知识图谱,首先需要数据的导入
一般来说数据源都是非结构化的,例如网络上爬取下来的网页,音频文件,视频文件,图片
需要使用到的技术有NLP,图片信息抽取,音频转文本等技术
用途
智能问答
如果拥有了一个知识图谱,就可以构建一个智能问答系统
例如如果输入是:我感冒了应该看什么科
系统通过查找感冒和科室的关系,就可以找到科室应该为呼吸内科
系统就可以回答:呼吸内科
反欺诈
在风控领域,数据一般以人为单位,人跟人存在一种关系,人跟消费记录,行为记录,网上浏览记录形成了另外的一些关系,那么风控团队就获得了一张非常大的网络图
当需要对某人进行风控分析,可以使用Graph embedding对每个人的图进行向量化,然后放入机器学习的模型进行训练和预测,从而得出欺诈的预判
不一致性检验
例如借款人张三说李四是他的父亲,王五是他的朋友;而同时王五说李四是他的父亲,张三是他的朋友。那么通过分析知识图谱,并进行推理,朋友的父亲不可能一样,引发不一致。此时就可以检测出,借款人有异常
智能搜索
例如Google,百度搜索
知识推理