《python深度学习》笔记---7.3.1、高级架构模式
一、总结
一句话总结:
残差连接,标准化和深度可分离卷积
1、标准化?
【归一化也是标准化】:将数据减去其平均值使其中心为0,然后将数据除以其标准差使其标准 差为 1。实际上,这种做法假设数据服从正态分布(也叫高斯分布),并确保让该分布的中心为 0, 同时缩放到方差为 1。
批标准化(batch normalization)也是标准化的一种:layers.BatchNormalization()
批再标准化:与批标准化相比,它具有明显的优势,且代价没有明显增加。
2、批标准化(batch normalization)?
【适应性地将数据标准化】:即使在训练过程中均值和方差随时间发生变化,它也可以 适应性地将数据标准化。
【工作原理:训练过程中在内部保存已读取每批数据均值和方差的指数移动平均值】:批标准化的工作原理是,训练过程中在内部保存已读取每批数据均值和方差的指数移动平均值。
【主要效果:有助于梯度传播】:批标准化的主要效果是,它有助于梯度传播(这一点和残差连接很 像),因此允许更深的网络。
【批标准化应用广泛】:对于有些特别深的网络,只有包含多个 BatchNormalization 层 时才能进行训练。例如,BatchNormalization 广泛用于Keras 内置的许多高级卷积神经网络 架构,比如 ResNet50、Inception V3 和 Xception。
3、BatchNormalization 层axis 参数为-1的意思是什么?
【默认值是-1,即输入张量的最后一个轴】:BatchNormalization 层接收一个axis 参数,它指定应该对哪个特征轴做标准化。这 个参数的默认值是-1,即输入张量的最后一个轴。
【"channels_last"(通道在后)的 Conv2D 层,这个默认值都是正确的】:对于 Dense 层、Conv1D 层、RNN 层和将 data_format 设为 "channels_last"(通道在后)的 Conv2D 层,这个默认值都是正确的。
【"channels_first"(通道在前)时为1】:但有少数人使用将 data_format 设为 "channels_first"(通道在前)的 Conv2D 层,这时 特征轴是编号为 1 的轴,因此 BatchNormalization 的 axis 参数应该相应地设为 1。
4、批再标准化?
与批标准化相比,它具有明显的优势,且代价没有明显增加。
5、深度可分离卷积(depthwise separable convolution)层(SeparableConv2D)的 作用?
有一个层可以替代 Conv2D,并可以让模型更加轻量(即更少的可训练权 重参数)、速度更快(即更少的浮点数运算),还可以让任务性能提高几个百分点
6、深度可分离卷积(depthwise separable convolution)层(SeparableConv2D)介绍?
【深度可分离卷积层对输入的每个通道分别执行空间卷积,然后通过逐点卷积(1×1 卷积)将输出通 道混合】
【这相当于将空间特征学习和通道特征学习分开】:这相当于将空间特征学习和通道特征学习分开,如果你假设输入中的 空间位置高度相关,但不同的通道之间相对独立,那么这么做是很有意义的。
【用更少的数据学到更好的表示】:因为它是一种执行卷积更高效的方法, 所以往往能够使用更少的数据学到更好的表示,从而得到性能更好的模型。
7、深度可分离卷积:深度卷积 + 逐点卷积?
深度卷积:对每个通道进行独立的空间卷积
model.add(layers.SeparableConv2D(64, 3, activation='relu'))
8、深度可分离卷积 应用?
【深度可分离卷积是Xception 架构的基础】:对于规模更大的模型,深度可分离卷积是Xception 架构的基础,Xception 是一个高性能的 卷积神经网络
二、内容在总结中
博客对应课程的视频位置: