训练词向量模型
NNLM
1.通过前面的词预测后面的词,来训练词向量。
2.最大化最后一个单词的概率对数。
LBL
1.跟NNLM非常相似。
2.使用了双线性的log函数代替了NNLM的log函数。
3.移除了非线性的激活函数tanh。
C&W
1.这个模型没有求目标单词,目标词就在输入的context的中心。
2.将这个context输入到模型中,然后求出目标词,并且要对目标词进行最大化,最大化的就是目标词的分数。
3.训练出来以后,每个句子就可以是一个词向量,那么就没有必要到词向量表中去寻找每个单词的词向量了。
4.C&W是找到跟目标词一起使用的词。
GloVe
基于单词-上下文矩阵,其中每一行对应一个单词,每一列对应一个上下文。矩阵中的元素与对应词和上下文的共现时间有关。这些模型被称为基于计数的模型,对这种矩阵方法的最新研究是全局向量模型,其中只有非零值的重构误差最小。
Word2vec(不做介绍)
嵌入层词向量优化总结:
1.选择更大的语料库来训练词向量。
2.在分类的领域训练词向量会显著提升词向量的质量,不要多个领域混合使用。
3.语料库的领域的专一性会比语料库的大小更加容易提升词向量的质量。
4.词向量的维度有助于提升分类效果。