《python深度学习》笔记---6.1、word embedding
一、总结
一句话总结:
将单词与向量相关联还有另一种常用的强大方法,就是使用密集的词向量(word vector), 也叫词嵌入(word embedding)。
1、词向量和词嵌入的关系?
词向量(word vector)也叫词嵌入(word embedding)。
2、one-hot 编码得到的向量和词嵌入得到的向量的区别?
【one-hot的是高维稀疏向量】:one-hot 编码得到的向量是二进制的、稀疏的(绝大部分元素都 是 0)、维度很高的(维度大小等于词表中的单词个数),
【词嵌入是低维的浮点数向量】:而词嵌入是低维的浮点数向量(即密 集向量,与稀疏向量相对)
3、one-hot 编码得到的向量和词嵌入得到的向量的维度实例?
【256、512 或 1024】:常见的词向量维度是256、512 或 1024(处理非常大的词表时)
【20 000 或更高】:与此相对,onehot 编码的词向量维度通常为 20 000 或更高(对应包含 20 000 个标记的词表)
【词向量可以将更多的信息塞入更低的维度中】:因此,词向量可以将更多的信息塞入更低的维度中。
4、获取词嵌入有两种方法?
【利用 Embedding 层学习词嵌入】:在完成主任务(比如文档分类或情感预测)的同时学习词嵌入。在这种情况下,一开始 是随机的词向量,然后对这些词向量进行学习,其学习方式与学习神经网络的权重相同。
【使用预训练的词嵌入】:在不同于待解决问题的机器学习任务上预计算好词嵌入,然后将其加载到模型中。这些 词嵌入叫作预训练词嵌入(pretrained word embedding)。
5、利用 Embedding 层学习词嵌入?
【在完成主任务的同时学习词嵌入】:在完成主任务(比如文档分类或情感预测)的同时学习词嵌入。在这种情况下,一开始 是随机的词向量,然后对这些词向量进行学习,其学习方式与学习神经网络的权重相同。
6、如何将一个词与一个密集向量相关联?
【随机选择向量】:最简单的方法就是随机选择向量
【嵌入空间没有任何结构】:这种方法的问题在于, 得到的嵌入空间没有任何结构。例如,accurate 和 exact 两个词的嵌入可能完全不同,尽管它们 在大多数句子里都是可以互换的。
【深度神经网络很难对非结构化的嵌入空间进行学习】:深度神经网络很难对这种杂乱的、非结构化的嵌入空间进行 学习。
【词向量之间的几何关系应该表示这些词之间的语义关系】:说得更抽象一点,词向量之间的几何关系应该表示这些词之间的语义关系。词嵌入的作用 应该是将人类的语言映射到几何空间中。
7、如何理解词向量之间的几何关系应该表示这些词之间的语义关系?
【同义词应该被嵌入到相似的词向量中】:例如,在一个合理的嵌入空间中,同义词应该被嵌入 到相似的词向量中,一般来说,任意两个词向量之间的几何距离(比如L2 距离)应该和这两个 词的语义距离有关(表示不同事物的词被嵌入到相隔很远的点,而相关的词则更加靠近)。
【向量的方向有其实际意义】:例如,从cat 到 tiger 的向量与从dog 到 wolf 的向量相等,这个向量可以被解释为“从宠 物到野生动物”向量。同样,从dog 到 cat 的向量与从wolf 到 tiger 的向量也相等,它可以被解 释为“从犬科到猫科”向量。
8、但从更实际的角度来说,一个好的词嵌入空间在很大程度上取决于你的任务?
【不同的任务可以考虑不同的完美词嵌入空间】:英语电影评论情感分析 模型的完美词嵌入空间,可能不同于英语法律文档分类模型的完美词嵌入空间,因为某些语义 关系的重要性因任务而异。
【合理的做法是对每个新任务都学习一个新的嵌入空间】:因此,合理的做法是对每个新任务都学习一个新的嵌入空间。幸运的是,反向传播让这种 学习变得很简单,而Keras 使其变得更简单。我们要做的就是学习一个层的权重,这个层就是 Embedding 层。
二、word embedding
博客对应课程的视频位置: