zoukankan      html  css  js  c++  java
  • Word2vec

    一、Word2vec简介

      一个将词表示为含有语义信息的向量的模型。
      一段文本——> 向量表示——>含有语义信息的向量表示。
    例如:
    输入:自然 语言 处理 包含 很多

    二、CBoW

    CBoW原理图


      通过上下文预测中间词。设置窗口为2,根据同中心词距离不超过2的背景词,生成中心词。即根据“自然”、“语言”、“包含”、“很多”预测生成“处理”的概率。
      因为连续词袋模型的背景词有多个,我们将这些背景词向量取平均,然后使用和Skip-gram模型一样的方法来计算条件概率。设(v_{i})(u_{i})分别表示词典中索引为i的词作为背景词和中心词的向量(注意符号的含义与跳字模型中的相反)。设中心词w_{c}在词典中索引为c,背景词(w_{o_{1}},...,w_{o_{2m}})在词典中索引为o_{1},...,o_{2m},那么给定背景词生成中心词的条件概率:

    (W_{o}=left { w_{o_{1}},...,w_{o_{2m}} ight })(hat{v}_{o}=left ( v_{o_{1}}+...+v_{o_{2m}} ight )/left ( 2m ight )),化简后的公式如下:

      给定一个长度为T的文本序列,设时间步t的词为(w^{left ( t ight )}),背景窗口大小为m。连续词袋模型的似然函数是由背景词生成任一中心词的概率。

      损失函数定义为log函数处理最大似然估计后的反函数。


      可以计算出上式中条件概率的对数有关任一背景词向量(v_{o_{i}})(left ( i=1,...,2m ight ))的梯度

    三、Skip-gram

    Skip-gram原理图


      通过中心词预测上下文。设置窗口为2,生成与中心词距离不超过2的背景词的条件概率。即根据“处理”预测生成“自然”、“语言”、“包含”、“很多”的概率。
    (Pleft ( "自然","语言","包含","很多"mid "处理" ight ))
    假设给定中心词的情况下,背景词的生成是相互独立的,那么上式可以改写成
    (Pleft ( "自然"mid "处理" ight )cdot Pleft ( "语言"mid "处理" ight )cdot Pleft ( "包含"mid "处理" ight )cdot Pleft ( "很多"mid "处理" ight ))
      在Skip-gram模型中,每个词被表示成两个d维向量,用来计算条件概率。假设这个词在词典中索引为i,当它为中心词时向量表示为(v_{i}),而为背景词时向量表示为(u_{i})。设中心词(w_{c})在词典中索引为c,背景词(w_{o})在词典中索引为o,给定中心词生成背景词的条件概率可以通过对向量内积做softmax运算而得到:

      其中词典索引集(v=left { 0,1,...,left | v ight |-1 ight })。假设给定一个长度为T的文本序列,设时间步t的词为(w^{left ( t ight )})。假设给定中心词的情况下背景词的生成相互独立,当背景窗口大小为m时,跳字模型的似然函数即给定任一中心词生成所有背景词的概率。

      损失函数定义为log函数处理最大似然估计后的反函数。


      参数梯度的求导。

  • 相关阅读:
    关于分工协作
    SQL分类后每类随机抽取
    新浪微群抢票
    to learn softwarelist
    大厂程序员教你如何学习C++(内附学习资料)
    干货|大厂程序员来讲一下互联网公司技术面试的流程以及注意事项
    程序员要如何写简历(附简历模板)
    laravel项目拉取下来安装,node.js库安装
    laravelhas方法查看关联关系
    laravel框架少见方法详解
  • 原文地址:https://www.cnblogs.com/wisteria68/p/13505576.html
Copyright © 2011-2022 走看看