zoukankan      html  css  js  c++  java
  • 深入浅出的图神经网络——读书笔记

    day 4

    第四章:表示学习

    4.1 表示学习的意义、离散表示与分布式表示、端到端学习的表示学习方法。

    • 表示学习:自动的从数据中学习有用的特征,并可以直接用于后续的学习任务。可以利用表示学习减少机器学习算法对特征工程的依赖。表示学习的任务通常是将输入映射到一个稠密的低维的向量空间中。
    • 机器学习中对象的表示方法有两种:离散表示和分布式表示。
      • 离散表示:one-hot编码,它是假设所有对象都是相互独立的,编码的维度非常高并且非常稀疏。
      • 分布式表示:通过某种方式得到一个低维稠密的向量表示研究对象。编码的结果包含了寓意信息,可以计算语义相似度。
    • 端到端学习:直接用原始数据作为网络的输入而不是提取的特征。是表示学习和任务学习的联合优化。
      • 优势:1、可以自动提取与任务相关的特征。2、学习到数据的层次化表达。3、可以方便进行迁移学习。

    两种典型的表示学习方法:

    4.2 基于重构损失的方法-自编码器:自编码器、正则自编码器、变分自编码器。

    • 自编码器
      • 将输入映射到某个特征空间,再从这个特征空间映射回输入空间进行重构。 训练完成后使用编码器进行特征提取。
      • 自编码器不需要额外标签信息进行监督学习,通过不断最小化输入和输出之间的重构误差进行训练的。基于损失函数,通过反向传播计算梯度,利用梯度下降法优化参数。
    • 正则自编码器:对于编码器的维度大于或者等于输入维度的郭皖北自编码器,为了防止编码器不会从数据中提取到有价值的特征的问题,对模型进行正则化约束。
      • 去噪自编码器:在原始自编码器的输入的基础上加入一些噪声作为编码器的输入,编码器需要重构出不加噪声的原始输入。
      • 稀疏自编码器:以限制神经元的活跃度来限制约束模型的,尽可能使大多数神经元都处于不活跃的状态。
    • 变分自编码器:用于生成新的样本数据,其本质是生成模型,它假设我们得到的样本都是服从某个复杂分布,生成模型的目的就是要建模,这样我们就可以从分布中进行采样得到新的样本数据。

    4.3 基于对比损失的方法-Word2vec

    • Word2vec模型将词嵌入到一个向量空间中,用一个低维的向量来表达每个词,语义相关的词距离更近,解决了传统方法存在的高维度和数据稀疏等问题。其核心思想是由一个词的上下文去刻画这个词。
  • 相关阅读:
    BRAFT EDITOR富文本编辑器
    小程序
    单元测试之道读书笔记(二)
    单元测试之道读书笔记(一)
    Blend学习网址
    2014年要读的10本书
    程序员一生必读的书籍
    WPF中PasswordBox控件无法绑定Password属性解决办法
    异步方式向WPF ListBox控件中一条一条添加记录
    10中适合编程的字体
  • 原文地址:https://www.cnblogs.com/xbsdloo/p/13556446.html
Copyright © 2011-2022 走看看