zoukankan      html  css  js  c++  java
  • WSI -> WordNet

    课题描述

    将一个句子中的每个单词都标注词义,这些词义来自于wordNet,对于多义词,要锁定其在该语境下的特定意思,或者求出词义分布.

    思路

    根据wordNet统计,%80的词只具有单意,单一词只需要直接映射到wordNet即可.所以映射的主要工作是多一次的词义锁定.
    wordNet每个多义词有若个sense,每个sense对应下有特定的同义词和sense tag和sense id,我们用wsi训练的词语也有若干语义,只是每个语义用词语的分布来表示,我们要做的就是要把训练出来的语义映射的wordNet的sense上.这两种分布有以下两种不同:
    1.数量不一定相同,会出现一对多和多对一的情况
    2.集合不同,前者是同义词集合,后者是sense的词语分布
    对于这种映射,有下面两种方法实现映射.

    Hu信息

    同义词集合(m) --- sense下词语分布(n)

    • 方法一:互信系
      建立(m+n) * (m+n)的二维向量,利用hu信息计算词两两之间的关系.
      H(x,y) = p(x)*p(y) / p(xy);

    • 方法二:抽象化(以下三种方法已有现成的方法和论文)
      -- 1.抽象成词袋(bag of words),计算两个词袋之间的相似度或联系
      -- 2.抽象成doc,计算两个doc之间的相似度或联系
      -- 3.抽象成sentence,计算两个sentence之间的相似度.

    同义词

    给需要的sense训练出词语分布,这样wordnet里的sense有分布,训练出的word有分布,就可以进行比对了.
    这种方法目前有两个问题需要验证:
    1.词语覆盖程度,用large2.en语聊,检测所用词语的词频.
    2.相似度问题

    拓展

    利用wordNet扩展HowNet

  • 相关阅读:
    ASP.NET中的ViewState
    (标记)Spring.Net+NHibenate+Asp.Net mvc +ExtJs 系列 By 似水流年
    C#中类的定义
    苹果CMS搭建影视网站教程
    Java之冒泡排序
    Java之数组扩容
    Linux之netstat命令基本使用
    Linux之systemctl命令基本使用
    Oracle11g R2 安装教程(非常详细 )
    Linux之firewall防火墙开启和关闭
  • 原文地址:https://www.cnblogs.com/cyno/p/4398948.html
Copyright © 2011-2022 走看看