word2vec (一) 简介与训练过程概要

zoukankan html css js c++ java

word2vec (一) 简介与训练过程概要

摘自：http://blog.csdn.net/thriving_fcl/article/details/51404655

词的向量化与word2vec简介

word2vec最初是Tomas Mikolov发表的一篇文章[1]，同时开源了相应的代码，作用是将所有词语投影到

为什么要将词用向量来表示呢？这样可以给词语一个数学上的表示，使之可以适用于某些算法或数学模型。通常将词语表示成向量有如下两种方法。

一、one-hot 表示法

假如语料库里一共有

二、Distributed 表示法

word2vec就是通过这种方法将词表示为向量，即通过训练将词表示为限定维度

不过Distributed表示法并不是word2vec诞生才有的，这种方法早在1986年Hinton就提出了[2]。word2vec之所以会产生这么大的影响，是因为它采用了简化的模型，使得训练速度大为提升，让word embedding这项技术(也就是词的distributed表示)变得较为实用。

概率语言模型

在详细介绍word2vec的原理之前还需要简单的提一下概率语言模型。概率语言模型就是表示语言的基本单位(通常为句子)的概率分布函数。有了语言模型我们可以判断一句话是自然语言的概率，或者让机器开口说话(根据语言模型生成一句话)。

见原文！

word2vec训练过程

见原文！

word2vec用的是神经网络模型，分为两种，cbow与skip-gram，每个模型的训练方法又分别有两种，hierarchical sofmax与negative sampling。

Reference

[1] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR, 2013.

[2] A. Mnih and G. Hinton. Three new graphical models for statistical language modelling. Proceedings of the 24th international conference on Machine learning,pages 641–648, 2007

查看全文

相关阅读:
python RabbitMQ
python IO多路复用版FTP
python SelectPollEpoll异步IO与事件驱动
 python 同步与异步的性能区别及实例
 mysql学习笔记1---mysql ERROR 1045 (28000): 错误解决办法(续：深入分析）
mysql学习笔记1---mysql ERROR 1045 (28000): 错误解决办法
 Ubuntu 安装HBase
微博excel数据清洗(Java版)
hadoop之mapreduce编程实例(系统日志初步清洗过滤处理)
MapReduce编程实例6

原文地址：https://www.cnblogs.com/bonelee/p/7144607.html

word2vec (一) 简介与训练过程概要

摘自：http://blog.csdn.net/thriving_fcl/article/details/51404655

词的向量化与word2vec简介

一、one-hot 表示法

二、Distributed 表示法

概率语言模型

word2vec训练过程

Reference