WSI -> WordNet

zoukankan html css js c++ java

WSI -> WordNet
课题描述

将一个句子中的每个单词都标注词义,这些词义来自于wordNet,对于多义词,要锁定其在该语境下的特定意思,或者求出词义分布.

思路

根据wordNet统计,%80的词只具有单意,单一词只需要直接映射到wordNet即可.所以映射的主要工作是多一次的词义锁定.
wordNet每个多义词有若个sense,每个sense对应下有特定的同义词和sense tag和sense id,我们用wsi训练的词语也有若干语义,只是每个语义用词语的分布来表示,我们要做的就是要把训练出来的语义映射的wordNet的sense上.这两种分布有以下两种不同:
1.数量不一定相同,会出现一对多和多对一的情况
2.集合不同,前者是同义词集合,后者是sense的词语分布
对于这种映射,有下面两种方法实现映射.

Hu信息

同义词集合(m) --- sense下词语分布(n)
- 方法一:互信系
  建立(m+n) * (m+n)的二维向量,利用hu信息计算词两两之间的关系.
  H(x,y) = p(x)*p(y) / p(xy);
- 方法二:抽象化(以下三种方法已有现成的方法和论文)
  -- 1.抽象成词袋(bag of words),计算两个词袋之间的相似度或联系
  -- 2.抽象成doc,计算两个doc之间的相似度或联系
  -- 3.抽象成sentence,计算两个sentence之间的相似度.
同义词

给需要的sense训练出词语分布,这样wordnet里的sense有分布,训练出的word有分布,就可以进行比对了.
这种方法目前有两个问题需要验证:
1.词语覆盖程度,用large2.en语聊,检测所用词语的词频.
2.相似度问题

拓展

利用wordNet扩展HowNet
查看全文

相关阅读:
[lua]原来这才是表驱动的正确表达方式
 [lua]再版jobSchedule与脚本描述范型
 (景德镇)麻将计分规则
 日志输出法则
 去掉谷歌浏览器获取焦点时默认的input、textarea的边框和背景
 使用@font-face 属性实现在网页中嵌入任意字体
 【问题】/usr/bin/env: php: 没有那个文件或目录
 Centos下nginx支持https协议
 PHP下生成非重复的id
PHP下的手机号码效验

原文地址：https://www.cnblogs.com/cyno/p/4398948.html

课题描述

思路

Hu信息

同义词

拓展