zoukankan      html  css  js  c++  java
  • 《python深度学习》笔记---6.1、word embedding

    《python深度学习》笔记---6.1、word embedding

    一、总结

    一句话总结:

    将单词与向量相关联还有另一种常用的强大方法,就是使用密集的词向量(word vector), 也叫词嵌入(word embedding)。

    1、词向量和词嵌入的关系?

    词向量(word vector)也叫词嵌入(word embedding)。

    2、one-hot 编码得到的向量和词嵌入得到的向量的区别?

    【one-hot的是高维稀疏向量】:one-hot 编码得到的向量是二进制的、稀疏的(绝大部分元素都 是 0)、维度很高的(维度大小等于词表中的单词个数),
    【词嵌入是低维的浮点数向量】:而词嵌入是低维的浮点数向量(即密 集向量,与稀疏向量相对)

    3、one-hot 编码得到的向量和词嵌入得到的向量的维度实例?

    【256、512 或 1024】:常见的词向量维度是256、512 或 1024(处理非常大的词表时)
    【20 000 或更高】:与此相对,onehot 编码的词向量维度通常为 20 000 或更高(对应包含 20 000 个标记的词表)
    【词向量可以将更多的信息塞入更低的维度中】:因此,词向量可以将更多的信息塞入更低的维度中。

    4、获取词嵌入有两种方法?

    【利用 Embedding 层学习词嵌入】:在完成主任务(比如文档分类或情感预测)的同时学习词嵌入。在这种情况下,一开始 是随机的词向量,然后对这些词向量进行学习,其学习方式与学习神经网络的权重相同。
    【使用预训练的词嵌入】:在不同于待解决问题的机器学习任务上预计算好词嵌入,然后将其加载到模型中。这些 词嵌入叫作预训练词嵌入(pretrained word embedding)。

    5、利用 Embedding 层学习词嵌入?

    【在完成主任务的同时学习词嵌入】:在完成主任务(比如文档分类或情感预测)的同时学习词嵌入。在这种情况下,一开始 是随机的词向量,然后对这些词向量进行学习,其学习方式与学习神经网络的权重相同。

    6、如何将一个词与一个密集向量相关联?

    【随机选择向量】:最简单的方法就是随机选择向量
    【嵌入空间没有任何结构】:这种方法的问题在于, 得到的嵌入空间没有任何结构。例如,accurate 和 exact 两个词的嵌入可能完全不同,尽管它们 在大多数句子里都是可以互换的。
    【深度神经网络很难对非结构化的嵌入空间进行学习】:深度神经网络很难对这种杂乱的、非结构化的嵌入空间进行 学习。
    【词向量之间的几何关系应该表示这些词之间的语义关系】:说得更抽象一点,词向量之间的几何关系应该表示这些词之间的语义关系。词嵌入的作用 应该是将人类的语言映射到几何空间中。

    7、如何理解词向量之间的几何关系应该表示这些词之间的语义关系?

    【同义词应该被嵌入到相似的词向量中】:例如,在一个合理的嵌入空间中,同义词应该被嵌入 到相似的词向量中,一般来说,任意两个词向量之间的几何距离(比如L2 距离)应该和这两个 词的语义距离有关(表示不同事物的词被嵌入到相隔很远的点,而相关的词则更加靠近)。
    【向量的方向有其实际意义】:例如,从cat 到 tiger 的向量与从dog 到 wolf 的向量相等,这个向量可以被解释为“从宠 物到野生动物”向量。同样,从dog 到 cat 的向量与从wolf 到 tiger 的向量也相等,它可以被解 释为“从犬科到猫科”向量。

    8、但从更实际的角度来说,一个好的词嵌入空间在很大程度上取决于你的任务?

    【不同的任务可以考虑不同的完美词嵌入空间】:英语电影评论情感分析 模型的完美词嵌入空间,可能不同于英语法律文档分类模型的完美词嵌入空间,因为某些语义 关系的重要性因任务而异。
    【合理的做法是对每个新任务都学习一个新的嵌入空间】:因此,合理的做法是对每个新任务都学习一个新的嵌入空间。幸运的是,反向传播让这种 学习变得很简单,而Keras 使其变得更简单。我们要做的就是学习一个层的权重,这个层就是 Embedding 层。

    二、word embedding

    博客对应课程的视频位置:

     
    我的旨在学过的东西不再忘记(主要使用艾宾浩斯遗忘曲线算法及其它智能学习复习算法)的偏公益性质的完全免费的编程视频学习网站: fanrenyi.com;有各种前端、后端、算法、大数据、人工智能等课程。
    博主25岁,前端后端算法大数据人工智能都有兴趣。
    大家有啥都可以加博主联系方式(qq404006308,微信fan404006308)互相交流。工作、生活、心境,可以互相启迪。
    聊技术,交朋友,修心境,qq404006308,微信fan404006308
    26岁,真心找女朋友,非诚勿扰,微信fan404006308,qq404006308
    人工智能群:939687837

    作者相关推荐

  • 相关阅读:
    JDBC 复习4 批量执行SQL
    JDBC 复习3 存取Oracle大数据 clob blob
    Oracle复习
    Linux命令(1)grep
    JDBC 复习2 存取mysql 大数据
    JDBC 复习1 DBUtil
    php 环境搭建问题
    Windows 批处理 bat 开启 WiFi 菜单选项 设置ID PWD
    Bat 批处理启动和停止Oracle 服务
    docker 学习1 WSL docker ,Windows docker
  • 原文地址:https://www.cnblogs.com/Renyi-Fan/p/13809352.html
Copyright © 2011-2022 走看看