zoukankan      html  css  js  c++  java
  • 浅谈知识图谱

    1. 什么是知识图谱

    知识图谱(Knowledge Graph, 简称KG)是以图模型的方式组织知识,每一条知识都以"点-边-点"的方式组织,可以等价表示为"主-谓-宾"结构

    • 知识图谱的“图谱”不是图像,而是图模型。
    • 知识图谱不仅仅关注知识如何用图表达,还需要关注图谱如何获取(知识抽取)、融合(知识融合)、更新、推理(知识推理)等问题

    2. 知识图谱的技术体系

    知识图谱的技术体系主要有知识抽取、本体构建、知识表示、知识融合、知识众包、知识推理、知识链接,以下介绍本体构建、知识抽取、知识融合

    2.1 本体建模

    什么是本体?

    本体是抽象的数据模型,“本体”和“实体”的关系可以类比为开发中的“类”和“方法”

    本体是动态变化的:不存在静态的本体

    本体建模比较灵活:概念、属性和关系有时无法确定唯一标准

    举例:我是女人,是算法工程师,本体可以是人,可以是职业。

    2.2 知识抽取

    知识抽取包括实体抽取、关系抽取、事件抽取

    • 实体抽取也就是命名实体识别,包括实体的检测(find)和分类(classify)

    实体抽取在信息抽取中扮演着重要角色,主要抽取的是文本中的原子信息元素,如人名、组织/机构名、地理位置、事件/日期、字符值、金额值等

    主要应用:

    • 命名实体作为索引和超链接
    • 情感分析的准备步骤,在情感分析的文本中需要识别公司和产品,才能进一步为情感词归类
    • 关系抽取(Relation Extraction)的准备步骤
    • 问答(QA) 系统,大多数答案都是命名实体
    • 关系抽取通常我们说的三元组(triple) 抽取,从文本中抽取出两个或者多个实体之间的语义关系

    举例:王健林谈儿子王思聪:我希望他稳重一点

    关系:父子(王健林,王思聪)

    • 事件抽取相当于一种多元关系的抽取

      事件抽取技术是从非结构化信息中抽取出用户感兴趣的事件,并以结构化呈现给用户。事件抽取任务可分解为4个子任务: 触发词识别、事件类型分类、论元识别和角色分类任务。其中,触发词识别和事件类型分类可合并成事件识别任务。论元识别和角色分类可合并成论元角色分类任务。事件识别判断句子中的每个单词归属的事件类型,是一个基于单词的多分类任务。角色分类任务则是一个基于词对的多分类任务,判断句子中任意一对触发词和实体之间的角色关系。

    2.3 知识融合

    知识融合指在不同数据集中找出同一个实体的描述记录,主要目的是对不同数据源中的实体信息进行整合,形成更加全面的实体信息。

    知识融合的难点:

    (1)自动化的语义匹配难以达到高精度

    • 字符串匹配可能会导致错误,而且漏掉相似实体
    • 同义词典构建比较耗时
    • 机器学习(深度学习)方法需要大量标注数据
    • 数据动态性导致匹配效果不佳

    (2)知识融合需要考虑数据的冲突处理

    • 属性值冲突
    • 逻辑冲突

    3. 知识图谱目前存在的问题

    (1)技术研发周期长

    • 知识图谱技术栈比较长,要完全掌握需要长期积累
    • 知识图谱每个技术都有很多参考文献,技术选项难

    (2)人力成本高

    • 知识图谱人才比较稀缺,特别是NLP人才、数据库人才和知识推理人才
    • 人工智能人才普遍工资比较高,直接影响图谱开发成本
    • 图谱开发需要大量数据标注,缺失高效标注工具

    (3)知识图谱资源缺乏

    公开的知识图谱大都为百科图谱,且关系稀疏

    领域图谱开放资源稀缺,构建成本高

  • 相关阅读:
    BZOJ.5068.友好的生物(思路)
    BZOJ.4695.最假女选手(线段树 Segment tree Beats!)
    BZOJ.4355.Play with sequence(线段树)
    BZOJ.4909.[SDOI2017]龙与地下城(正态分布 中心极限定理 FFT Simpson积分)
    HDU.4035.Maze(期望DP)
    Codeforces.1027F.Session in BSU(思路 并查集)
    BZOJ.4299.Codechef FRBSUM(主席树)
    UOJ.41.[清华集训2014]矩阵变换(稳定婚姻)
    BZOJ.5312.冒险(线段树)
    UOJ.386.[UNR #3]鸽子固定器(贪心 链表)
  • 原文地址:https://www.cnblogs.com/cymx66688/p/10965098.html
Copyright © 2011-2022 走看看