zoukankan      html  css  js  c++  java
  • 人物关系挖掘方案设计

     
    背景
     
    拓展知识图谱-人物关系模块,激发用户兴趣点击,提升流量。
     
     
    要解决的问题
     
    1、识别人名:ner 命名实体识别。
    2、识别两个人是有关系的;
      人名共现来说明两个人之间有关系;
      词向量计算词与词之间的相似度来说明两个人之间关系。
    3、人物关系挖掘。
      两个人名满足某种依存模式,则将两个人名和关系抽取出来。
      用到的相关nlp算子:分词、词性标注、命名实体识别(NER)、依存语法分析、语义角色标注
      依存句法中我们所用到的主要关系有:主谓关系(SBV)、动宾关系(VOB)、定中关系(ATT)、并列关系(COO)、介宾关系(POB);
     
    技术方案、基于依存句法的人物关系抽取
     
     
     
     
     
     
    核心工程
     
     
    模式_实例1
     
    两人名实体同时位于主语,并列关系
    例如:1914年,孔祥熙与宋霭龄于日本结婚。
     
    利用哈工大语言云进行句法分析得到结果如下:
     
     
     
    模式_实例2
     
      两人名实体同时位于主语,修饰关系。特征词分别采用角色词或者人物词进行不同策略的挖掘。
      例如:邓超的妻子孙俪也是著名演员。
     
      使用句法分析得到结果如下:
     
     
     
     
     
    模式_实例3
     
      两人名实体位于宾语,修饰关系
      例如:他的妻子以往被认为是洪秀全的妹妹洪宣娇。
     
     
     
    模式_实例4
     
      两人名实体分别为主语和宾语,这种情况时,选取谓语动词作为特征词
     
      例如“子路师从孔子”
     
     
     
     
    模式_实例5
     
      关系名为主语、人名2为宾语,这种情况时,选取谓语动词“是”作为特征词。
      例如“禹智皓的哥哥是韩国男歌手禹泰云”
     
     
    训练数据
     

    部分训练样本

    金城武在经济公司的安排下师从歌手陈升
    子路师从孔子
    禹智皓的哥哥是韩国男歌手禹泰云
    贾巴里·帕克的父亲桑尼·帕克是前NBA球员   APP
    邓超的妻子孙俪也是著名演员  APP两人名实体同时位于主语,修饰关系
    1914年,孔祥熙与宋霭龄于日本结婚    两人名实体同时位于主语,并列关系
    他的妻子以往被认为是洪秀全的妹妹洪宣娇  两人名实体位于宾语,修饰关系
    韩雪在年代武侠剧《叶问》中饰演叶问的妻子张永成
    刘涛共同出演古装爱情剧《大理公主》饰演贫苦寡妇杨玉姣的女儿杨阿细
    

      

    优化方案
     
      指代消解。针对那些语句中有代词情况,考虑采用指代消解方案进行优化!
        提高精准度特殊处理方式:
        1、特定关系,必须满足姓氏相同。如:妹妹、弟弟、哥哥、父亲、女儿、儿子、爷爷
        2、语义提取,太依赖于nlp服务本身,在项目中发现,句法分析中出现部分中文词无法提取出来(这种nlp的句法分析服务暂没提供自定义词库功能);
        3、ner的识别问题,通过增加分词,并增加一些自定义的分类方式,提高ner的识别度!
     
    数据评估——衡量方法的优劣
     
    1、大多采用准确率和召回率和F1值来衡量方法的优劣。
    2、F1值为准确率和召回率的加权几何平均值,具体定义如下。
      β是准确率和召回率的相对权重,β= 1,认为两个指标重要性是相同的;β>1,召回率权更重要一些;β<1时,准确率更重要一些。
     
     
    数据评估方式
     
      数据标注:
          1) 先跑出一版数据,然后再数据上做正确的标注;
      评估方式:
          1) 关系挖掘数据评估;
          2) 内链数据评估;
       新闻数据评估:
          1) 近似认为与原语料相同,进行数据类挖掘;
     
     
    规则提取特征:
    1) 换行提取
      丘和

     2) 单行

    丘行恭

     
    推荐
     
     
     
  • 相关阅读:
    HDU2222 自动机(学习中)
    POJ 2289(多重匹配+二分)
    POJ 1486二分图的必要边
    二分图
    2015陕西 并查集
    Hdu2680 最短路
    函数调用约定
    用01随机函数构造[a,b]整数范围随机数
    hello
    Ubuntu 16.04 install R language
  • 原文地址:https://www.cnblogs.com/baochuan/p/9089515.html
Copyright © 2011-2022 走看看