深入浅出的图神经网络——读书笔记

zoukankan html css js c++ java

深入浅出的图神经网络——读书笔记
day 4

第四章：表示学习

4.1 表示学习的意义、离散表示与分布式表示、端到端学习的表示学习方法。
- 表示学习：自动的从数据中学习有用的特征，并可以直接用于后续的学习任务。可以利用表示学习减少机器学习算法对特征工程的依赖。表示学习的任务通常是将输入映射到一个稠密的低维的向量空间中。
- 机器学习中对象的表示方法有两种：离散表示和分布式表示。
  
  离散表示：one-hot编码，它是假设所有对象都是相互独立的，编码的维度非常高并且非常稀疏。
  
  分布式表示：通过某种方式得到一个低维稠密的向量表示研究对象。编码的结果包含了寓意信息，可以计算语义相似度。
- 端到端学习：直接用原始数据作为网络的输入而不是提取的特征。是表示学习和任务学习的联合优化。
  
  优势：1、可以自动提取与任务相关的特征。2、学习到数据的层次化表达。3、可以方便进行迁移学习。
两种典型的表示学习方法：

4.2 基于重构损失的方法-自编码器：自编码器、正则自编码器、变分自编码器。
- 自编码器
  
  将输入映射到某个特征空间，再从这个特征空间映射回输入空间进行重构。训练完成后使用编码器进行特征提取。
  
  自编码器不需要额外标签信息进行监督学习，通过不断最小化输入和输出之间的重构误差进行训练的。基于损失函数，通过反向传播计算梯度，利用梯度下降法优化参数。
- 正则自编码器：对于编码器的维度大于或者等于输入维度的郭皖北自编码器，为了防止编码器不会从数据中提取到有价值的特征的问题，对模型进行正则化约束。
  
  去噪自编码器：在原始自编码器的输入的基础上加入一些噪声作为编码器的输入，编码器需要重构出不加噪声的原始输入。
  
  稀疏自编码器：以限制神经元的活跃度来限制约束模型的，尽可能使大多数神经元都处于不活跃的状态。
- 变分自编码器：用于生成新的样本数据，其本质是生成模型，它假设我们得到的样本都是服从某个复杂分布，生成模型的目的就是要建模，这样我们就可以从分布中进行采样得到新的样本数据。
4.3 基于对比损失的方法-Word2vec
- Word2vec模型将词嵌入到一个向量空间中，用一个低维的向量来表达每个词，语义相关的词距离更近，解决了传统方法存在的高维度和数据稀疏等问题。其核心思想是由一个词的上下文去刻画这个词。
查看全文

相关阅读:
How to build Skia canvaskit
c++ 多线程并发 id generator 产生器
 c++ 多态读书笔记
 c++ 各种奇门鬼爪的构造函数和类的初始化
 图说C++对象模型：对象内存布局详解强烈推荐
 C++对象模型之RTTI的实现原理
 C++ cast static_cast、dynamic_cast、const_cast和reinterpret_cast（四种类型转换运算符）强烈推荐
 Markdown 语法
 vc 编译选项忽略crash
chromium 编译报错 You must installWindows 10 SDK version 10.0.19041.0 including the "Debugging Tools for Windows" feature.

原文地址：https://www.cnblogs.com/xbsdloo/p/13556446.html

深入浅出的图神经网络——读书笔记

day 4

第四章：表示学习

4.1 表示学习的意义、离散表示与分布式表示、端到端学习的表示学习方法。

两种典型的表示学习方法：

4.2 基于重构损失的方法-自编码器：自编码器、正则自编码器、变分自编码器。

4.3 基于对比损失的方法-Word2vec