一、专业词汇
deep neural network 深度学习网络
shallow model 浅层模型
weight matrix 权重矩阵
bias terms 偏移项
notation 符号约定
dimensions 维数
3 dimensional vector 三维向量
the rules of matrix multiplication 矩阵乘法法则
face recognition 人脸识别
face detection 人脸检测
feature detector 特征探测器
edge detector 边缘探测器
circuit theory 电路理论
hyper parameters 超参数
one iteration of gradient descent 一个梯度下降循环
二、编程技巧
核对所有矩阵的维数,保证前后一致
进行反向传播时,dw的维度和W相同,db的维度和b相同,这四个在向量化的过程中维度都是一样的:
但是Z A X的维度会在向量化后发生变化:
Z的维度和dZ的维度相同,A的维度和dA的维度相同:
在一个梯度下降循环中,将z w b的值进行缓存存储,可以很方便的将其应用到反向传播中
三、思维
logistic regression 属于单层浅层模型
深层神经网络符号表示:
正向传播与反向传播流程:
深层网络正向传播通用公式:
深层网络正向传播向量化:
深层网络的好处:
可以将前面几层看作是探测简单的函数,将其和后面几层结合起来,整体上学习更多复杂的函数
边缘探测器相对来说都是针对照片中非常小块的面积
在深度神经网络的许多隐层中,较早的前几层能学习一些低层次的简单特征, 后面几层则将简单特征结合起来,去探测更加复杂的东西
使用电路理论解释深层网络的好处:浅层网络可能需要呈指数增长的单元数量达到与深层网路同样的效果:
深层网络反向传播:
总结:
一个梯度下降循环:
超参数:
1)学习率:alpha 决定参数如何进化
2)梯度下降循环的数量
3)隐层数 L
4)隐层单元数 n^[1] n^[2]
5)激活函数的选择
以上参数某些程度上控制了最终的参数W和b
其他参数:momentum term
minibatch size
不同的正则化参数
例如可以通过选取不同的alpha的值,看最终的cost函数的变化,以选取收敛在cost函数值最低的且能加快学习速度的alpha值 idea------>code------->experiment 循环测试
正向传播和反向传播表示: