课题描述
将一个句子中的每个单词都标注词义,这些词义来自于wordNet,对于多义词,要锁定其在该语境下的特定意思,或者求出词义分布.
思路
根据wordNet统计,%80的词只具有单意,单一词只需要直接映射到wordNet即可.所以映射的主要工作是多一次的词义锁定.
wordNet每个多义词有若个sense,每个sense对应下有特定的同义词和sense tag和sense id,我们用wsi训练的词语也有若干语义,只是每个语义用词语的分布来表示,我们要做的就是要把训练出来的语义映射的wordNet的sense上.这两种分布有以下两种不同:
1.数量不一定相同,会出现一对多和多对一的情况
2.集合不同,前者是同义词集合,后者是sense的词语分布
对于这种映射,有下面两种方法实现映射.
Hu信息
同义词集合(m) --- sense下词语分布(n)
-
方法一:互信系
建立(m+n) * (m+n)的二维向量,利用hu信息计算词两两之间的关系.
H(x,y) = p(x)*p(y) / p(xy); -
方法二:抽象化(以下三种方法已有现成的方法和论文)
-- 1.抽象成词袋(bag of words),计算两个词袋之间的相似度或联系
-- 2.抽象成doc,计算两个doc之间的相似度或联系
-- 3.抽象成sentence,计算两个sentence之间的相似度.
同义词
给需要的sense训练出词语分布,这样wordnet里的sense有分布,训练出的word有分布,就可以进行比对了.
这种方法目前有两个问题需要验证:
1.词语覆盖程度,用large2.en语聊,检测所用词语的词频.
2.相似度问题
拓展
利用wordNet扩展HowNet