zoukankan      html  css  js  c++  java
  • word2vec学习

    提取文本特征的方法之一——词向量

      词向量,英文叫 Word2Vec,又叫词嵌入(Word Embedding),这种方法可 以解决词袋模型的稀疏性问题,它的核心思想是:每一个词映射到一个多维空间中,成为空间中的一个向量,一般这个多维空间的维数不会太高,在几百个的量级。这几百维的特征向量是稠密的,向量中的每一个成员值都是非0的, 例如:

      “我”这个词可以表征为:[0.4, -0.11, 0.55, 0.3 . . . 0.1, 0.02]

      “喜欢”这个词可以表征为:[-0.02, -0.09,0.04, 0.02. . . , 0.5, 0.03]

      由于词向量由几百个维度构成,所以也被称为分布式表征(DistributedRepresentation)。词向量模型是通过对原始文本建模训练学习得到的。

      由于词向量把每一个词映射到了一个高维空间中,并用向量表示,向量的生成 是基于词与词之间的相关性得来,可以理解为相关的词在空间中的位置会比较 靠近,所以词向量有一个非常有趣的特性,那就是类比。如下图所示,我们对 不同词的词向量进行运算可以得到有趣的结果:

    vector(“国王”) - vector(“王后”) ≈ vector(“男人”) - vector(“女人”)

    vector(“英国”) + vector(“首都”) ≈ vector(“伦敦”)

  • 相关阅读:
    python之基础2
    python之文件2
    python之入门2
    python之入门
    python之多并发2
    python之面向对象2
    python之MySQL系列
    python之文件
    python之多并发
    Google身份验证器详解
  • 原文地址:https://www.cnblogs.com/ICDTAD/p/14941549.html
Copyright © 2011-2022 走看看