zoukankan      html  css  js  c++  java
  • 词向量

    自然语言处理(NLP)

    NLP中最细粒度的是词语(word),词语组成句子,句子再组成段落、章节和文档。所以NLP的核心问题就是:如何理解word

    如何理解word

    由于目标是与计算机对接,其核心就是如何给计算机描述一个word,有以下两种描述方式:

    One-hot Representation

    Distributional Representation

    One-hot Representation

    采用稀疏存储,把每个词表示成一个很长的向量,向量长度是词表大小,向量中只有一个值是1,其余全是0

    缺点:稀疏且高维度

         没有语义信息

    Distributional Representation

    分布式表示:对于每一个词,用低维稠密的向量来表示,每个维度可以表示该词在这个维度的分布情况

    注意:向量长度可以自己指定

    word2vec是由谷歌科学家Mikolov在2013年所提出来的算法,其算法解决了如何将word映射成一个能保持语义信息的向量

    word2vec采用Skip-Gram语言模型:learning word representations by predicting its nearby words

     

    进行优化

    Word2vec应用

    有非常多的应用,比如搜索,文档分类,推荐等等

    代表性工作:谷歌的神经翻译机,将Cn^2个翻译模型简化为一个模型(传说中的巴别通天塔)

     

  • 相关阅读:
    Java导出Excel和CSV(简单Demo)
    ffmepg命令行参数
    VLC命令参数(转载)
    深入Java虚拟机读书笔记第五章Java虚拟机
    JS常用方法记录
    记一次数据库的优化
    Infobright数据库使用
    Mysql连接驱动8.0版本改动
    Eclipse新建SrpingBoot项目Pom.xml文件报错
    SpringBoot 热部署开发
  • 原文地址:https://www.cnblogs.com/zyqy/p/11070236.html
Copyright © 2011-2022 走看看