zoukankan      html  css  js  c++  java
  • WSI -> WordNet

    课题描述

    将一个句子中的每个单词都标注词义,这些词义来自于wordNet,对于多义词,要锁定其在该语境下的特定意思,或者求出词义分布.

    思路

    根据wordNet统计,%80的词只具有单意,单一词只需要直接映射到wordNet即可.所以映射的主要工作是多一次的词义锁定.
    wordNet每个多义词有若个sense,每个sense对应下有特定的同义词和sense tag和sense id,我们用wsi训练的词语也有若干语义,只是每个语义用词语的分布来表示,我们要做的就是要把训练出来的语义映射的wordNet的sense上.这两种分布有以下两种不同:
    1.数量不一定相同,会出现一对多和多对一的情况
    2.集合不同,前者是同义词集合,后者是sense的词语分布
    对于这种映射,有下面两种方法实现映射.

    Hu信息

    同义词集合(m) --- sense下词语分布(n)

    • 方法一:互信系
      建立(m+n) * (m+n)的二维向量,利用hu信息计算词两两之间的关系.
      H(x,y) = p(x)*p(y) / p(xy);

    • 方法二:抽象化(以下三种方法已有现成的方法和论文)
      -- 1.抽象成词袋(bag of words),计算两个词袋之间的相似度或联系
      -- 2.抽象成doc,计算两个doc之间的相似度或联系
      -- 3.抽象成sentence,计算两个sentence之间的相似度.

    同义词

    给需要的sense训练出词语分布,这样wordnet里的sense有分布,训练出的word有分布,就可以进行比对了.
    这种方法目前有两个问题需要验证:
    1.词语覆盖程度,用large2.en语聊,检测所用词语的词频.
    2.相似度问题

    拓展

    利用wordNet扩展HowNet

  • 相关阅读:
    leetcode hot 100
    tls证书制作
    全面解析Kafka
    redis cluster
    redis 常用命令
    mysql 备份
    mysql 读写分离
    mysql 复制模式
    mysql 主从
    mysql多实例以及主从
  • 原文地址:https://www.cnblogs.com/cyno/p/4398948.html
Copyright © 2011-2022 走看看