zoukankan      html  css  js  c++  java
  • 词向量的cbow模型

     word2vec完整的解释可以参考《word2vec Parameter Learning Explained》这篇文章。

    cbow模型

       cbow模型的全称为Continuous Bag-of-Word Model。该模型的作用是根据给定的词$w_{input}$,预测目标词出现的概率$w_t$,对应的数学表示为 $p(w_t|w_{input})$。如下图所示,Input layer表示给定的词,${h_1,...,h_N}$是这个给定词的词向量(又称输入词向量),Output layer是这个神经网络的输出层,为了得出在这个输入词下另一个词出现的可能概率,需要对Output layer求softmax。

    图1 单个词的CBOW模型(来源于word2vec Parameter Learning Explained)

        在cbow模型中,所有的词被编码成ont-hot向量,$V$为总词语数。input层的one-hot vector经过$W_{VXN}$矩阵后,被压缩为只有N个元素的向量$h$,之后经过$W'$矩阵出来,得到$oldsymbol{u}$。于是根据公式,有  

    $p(w_t|w_{input})=y_j=frac{exp(u_j)}{sum{exp(u_{j'})}}$

      最大化该条件概率,得到  

    max$p(w_t|w_{input})$=max log$y_j$=$u_j$-log$sum{exp(u_j)}$

    于是得到词袋模型的Loss function:

    E=-log$p(w_t|w_{input})$=log$sum{exp(u_j)}$-$u_j$

    这里,$u_j$表示第j个词向量。有了loss function,我们就可以很容易的利用各类框架进行词向量的训练了。

    但是!在实际中,一个词的上下文有许多的词,往往我们需要的是,给定多个词,预测缺失词出现的概率。我们希望词袋模型能够处理这个问题。于是,为了利用之前的词袋模型,人们提出了新的解决方案。它的思路是这样的:它利用输入上下文词向量的平均与输入层到隐藏层权重的积作为输入,上下文词向量的平均作为输出。

    $h=frac{1}{C} W^T (x_1+x_2+...+x_C)$

    利用之前得到的词向量,上面的公式可以简化为:

    $h=frac{1}{C}  (v_1+v_2+...+v_C)$

    这里每个$v$代表了之前单个词的CBOW模型的输入词向量。

    图2 多个词上下文的词袋模型

     

  • 相关阅读:
    NodeJS、NPM安装配置步骤(windows版本)
    23种设计模式全解析
    js阻止浏览器默认事件
    js获取不同浏览器盒子宽度高度
    H5之重力感应篇
    JS中的call()和apply()方法
    html学习笔记
    less(css)语言快速入门
    power designer简单教程
    Strom开发配置手册
  • 原文地址:https://www.cnblogs.com/webbery/p/10200912.html
Copyright © 2011-2022 走看看