本章节讲解 参数更新 dropout
=========================================================================================
上节内容回顾与总结:
模型过程:

激活函数:注意理解各个函数的优缺点

数据预处理:

权重参数初始化:Xavier方法,使用较多。

batch normalization :

cross validation :比较loss 结果,选择合适学习率

=========================================================================================
本章知识点:

=========================================================================================
Parameter Update :
训练NN的代码结构:

最后一行即为参数更新。
sgd的轨迹:

因为minibatch的原因,在波动中收敛。
Momentum update

加入了动量,加速收敛。
SGD vs Momentum

Momentum 直观解释:

Nesterov Momentum :

更新公式比较:

AdaGrad update : 前两种是在更新方式上的算法,接着总结学习率更新的算法
自适应梯度,根据误差项来调整学习率。

显然,在误差较大时学习率低,当误差减小时,学习率升高。
RMSProp update :

Adam update :


Learning rate :

可以使用开始时较大的学习率,之后逐步衰减的方法。
第二种优化方法:
损失函数泰勒展开:

这种方法,不需要超参数,学习率等。但是不实用,因为需要计算H-1,即海森矩阵。其比较庞大。
拟牛顿法:


实际应用:

=========================================================================================
model ensemble :在测试的时候,使用多个模型,对结果做平均值。

一些技巧:

=========================================================================================
Dropout :
示意图:

代码结构:

模型实例:


测试阶段:没有dropout

在training 阶段做出一些调整:

修改后:

两种方式:


=========================================================================================
CNN 发展过程


视觉系统是由简单结构到复杂结构,信号的抽象过程。


拟生视觉网络。
现阶段:分类、复原、识别应用广。






附:通关CS231n企鹅群:578975100 validation:DL-CS231n