zoukankan      html  css  js  c++  java
  • 实体识别初接触

    定义:不同的数据提供方对同一个事物即实体 (Entity)可能会有不同的描述 (这 里的描述包括数据格式 、表示方法 等) ,每一个对实体的描述称为该实体的一个引用。实体解析,是指从一个“ 引用集合”中解析并映射到现实世界中的“ 实体”过程 。

    实体解析(Entity Resolution)又被称为记录链接(Record Linkage) 、对象识别(object Identification ) 、个体识别(Individual Identification) 、重复检测(Duplicate Detection)

    成对实体解析算法:

      最基本的实体解析问题有基于单个数据库和基于两个无重复记录数据库两种类型

        基于单个数据库:可 以看成是重复记录检测

        基于两个无重复记录数据库:可以看作是对记录对集合P{p (r1,r2) | r1∈d1,r2∈d2)中的每一对记录用函数 fun(r1,r2)进行匹配,fun函数首先计算各项属性之间的  相似度(距离),然后根据其各属性相似度做出判断 。

          判断的方法主要有以下几种:基于规则,通常需要比较深厚的领域知识,且不容易构造,同时调整起来也比较困难;基于权重,为各属性分配权重,计算各对属性相似度的加权 和,根据事先设定的阈值来决定是否匹配,各属性权值可以由领域内专家分配,也可以通过机器学习获得;基于机器学习,包括决策树、支持向量机,嵌套分类器,条件随机场等,机器学习方法的主要缺点在于能高度反映目标数据集特点的训练集非常难以构建 。

    相似度传播

    传统的实体解析算法考虑的是记录的属性是静态不变的,但是这远远不够的,同时 ,记录“ 所有记录对”都独 立同分布这样 的假设 也不符合实际情况,例如,两篇文章的作者均“W Wang”和 “A Ansari”

     

    在文章 1 和文章 2 中,“W Wang”和“A Ansari”都有合作关系 ,假如已经确定了 P 匹配 ,显然这对 P的匹配有正面的影响(P ositive Evidence) 。所以,两个记录对之间并不是独立的,而是相互影响的 。

    大数据上的实体解析算法

    根据某种知识或规则对数据进行预处理,将它们分成规模更小的数据块 (Block),并在这些块里进行实体解析,以提高算法效率的方法,即分块技术 (Block Technique)

    · 基 hash函数的分块该方法的核心思想是 :
      (1)定义一个关于一项或多项属性的hash 函数,每个块都有一个hash 值 ^ 标识 ;
      (2) 将所有hash(r) =6 的引用r都归入b中 ;
      (3) 所有的块都互不相交 ;
      (4) 实体解析算法仅在块内运行 。

    minHash算法。就是基于多种 hash 键值来进行分块 的算法
      (1)假设F{fi} 是定义在记录集合x上的一系列 hash函数,F(x)是 {fi}作用于记录x而得到的一组键值向量 Kx{k x,i } ;
      (2)假设π是(1一|F|)的一个随机排序,π的第一个值为m,则 minHash(x)=Kx,m 。
      根据 minHash的定义,不难得出,对于两条记录x和y,它们的minHash值相同的概率为 :

        

    除此之外,token分块算法,并根据块的性耗比对块进行排序,剔除低性耗比的块,以保证算法的质量和效率;后缀数组算法,根据分块键值的特定长度后缀进行分块;将每条记录的键值映射到多维的欧氏空间中,然后根据键值之间的距来确定相似的记录对;根据键值特定长度的字串来进行分块;借鉴数据挖掘中的频繁项集(Frequent hemsets),定义基于最大频繁项集(Maximal Frequenth em ets)的分块算法,该算法可以很大程度上减弱在设定分块键值时对

     · 基于相似度与距离的分块
      Canopy 算法 :将 记 录集合 中的每 一条 记 录都 映 射成空间 中的点 ,然后根据空问 中各点的位置 ,将 聚集的点划到一个块 中:
        (1) 首先设 置两个阈值 T1和T2,且T1>T2,并设计好距离函数distance(x,y) 表示任意两个记录之间 的距离 ;
        (2) 设记录集合为R,任取rER,新建一个块Bi,将所有与r距离小于T的记录都加入Bi ;
        (3) 删除所有与 r 距离小于T2的记录 ;
        (4) 重复步骤(2)和(3)直到R为空 。

     基于贝叶斯网络的XMI文档相似性算法,其基本思想是:
      (1)文档之间的相似性是它们的根节点之间的相似性;
      (2)两个节点之间的相似性由它们的后代节点相似性对应的条件概率决定;
      (3)两个叶节点的相似性是它们内容的相似性 。

    除上述方法外 ,提出了基于路径集合相似性的算法。结合树的结构相似性与内容相似性的算法,将结点名称相似性、路径相似性和节点所有后代的内容相似性的平均值作为XMI文 档的相似性;将公共叶节点作为内容相似性叶节点的平均路径相似性作为结构相似性,并将这两者的乘积作为XMI文档的相似性 。

     动态实体解析

    传统的实体解析算法都应用于静态数据库,然而现实中有很多数据是动态的 ,不管是实体的属性还是实体间的关系都随着时间演化。比如,当一个人由属性有(信息科学与通信学院,副教授)变为(信息科学与工程学院,教授),这样的表示的方式是不同的,但是他们仍然属于同一个实体。

  • 相关阅读:
    D. Babaei and Birthday Cake--- Codeforces Round #343 (Div. 2)
    Vijos P1389婚礼上的小杉
    AIM Tech Round (Div. 2) C. Graph and String
    HDU 5627Clarke and MST
    bzoj 3332 旧试题
    codeforces 842C Ilya And The Tree
    codesforces 671D Roads in Yusland
    Travelling
    codeforces 606C Sorting Railway Cars
    codeforces 651C Watchmen
  • 原文地址:https://www.cnblogs.com/nolonely/p/5399695.html
Copyright © 2011-2022 走看看