word2vec学习 - 走看看

zoukankan html css js c++ java

word2vec学习

提取文本特征的方法之一——词向量

　　词向量，英文叫 Word2Vec，又叫词嵌入（Word Embedding），这种方法可以解决词袋模型的稀疏性问题，它的核心思想是：每一个词映射到一个多维空间中，成为空间中的一个向量，一般这个多维空间的维数不会太高，在几百个的量级。这几百维的特征向量是稠密的，向量中的每一个成员值都是非0的，例如：

　　“我”这个词可以表征为：[0.4, -0.11, 0.55, 0.3 . . . 0.1, 0.02]

　　“喜欢”这个词可以表征为：[-0.02, -0.09,0.04, 0.02. . . , 0.5, 0.03]

　　由于词向量由几百个维度构成，所以也被称为分布式表征（DistributedRepresentation）。词向量模型是通过对原始文本建模训练学习得到的。

　　由于词向量把每一个词映射到了一个高维空间中，并用向量表示，向量的生成是基于词与词之间的相关性得来，可以理解为相关的词在空间中的位置会比较靠近，所以词向量有一个非常有趣的特性，那就是类比。如下图所示，我们对不同词的词向量进行运算可以得到有趣的结果：

vector(“国王”) - vector(“王后”) ≈ vector(“男人”) - vector(“女人”)

vector(“英国”) + vector(“首都”) ≈ vector(“伦敦”)

查看全文

相关阅读:
样条之CatmullRom
分形之树（Tree）
B样条
 样条之贝塞尔(Bezier)
插值与样条
 windows 下的Python虚拟环境（vitrualen）pycharm创建Django项目
 VS2010专业版和旗舰版（中文版）下载
 PHP课程环境安装总结文档
 原码、反码、补码知识详细讲解（此作者是我找到的讲的最细最明白的一个）
C语言中size_t类型详细说明【转载】

原文地址：https://www.cnblogs.com/ICDTAD/p/14941549.html

Copyright © 2011-2022 走看看