提取文本特征的方法之一——词向量
词向量,英文叫 Word2Vec,又叫词嵌入(Word Embedding),这种方法可 以解决词袋模型的稀疏性问题,它的核心思想是:每一个词映射到一个多维空间中,成为空间中的一个向量,一般这个多维空间的维数不会太高,在几百个的量级。这几百维的特征向量是稠密的,向量中的每一个成员值都是非0的, 例如:
“我”这个词可以表征为:[0.4, -0.11, 0.55, 0.3 . . . 0.1, 0.02]
“喜欢”这个词可以表征为:[-0.02, -0.09,0.04, 0.02. . . , 0.5, 0.03]
由于词向量由几百个维度构成,所以也被称为分布式表征(DistributedRepresentation)。词向量模型是通过对原始文本建模训练学习得到的。
由于词向量把每一个词映射到了一个高维空间中,并用向量表示,向量的生成 是基于词与词之间的相关性得来,可以理解为相关的词在空间中的位置会比较 靠近,所以词向量有一个非常有趣的特性,那就是类比。如下图所示,我们对 不同词的词向量进行运算可以得到有趣的结果:
vector(“国王”) - vector(“王后”) ≈ vector(“男人”) - vector(“女人”)
vector(“英国”) + vector(“首都”) ≈ vector(“伦敦”)