吴恩达深度学习第1课第4周-任意层人工神经网络(Artificial Neural Network，即ANN)（向量化）手写推导过程（我觉得已经很详细了）

zoukankan html css js c++ java

吴恩达深度学习第1课第4周-任意层人工神经网络(Artificial Neural Network，即ANN)（向量化）手写推导过程（我觉得已经很详细了）
学习了吴恩达老师深度学习工程师第一门课，受益匪浅，尤其是吴老师所用的符号系统，准确且易区分．
遵循吴老师的符号系统，我对任意层神经网络模型进行了详细的推导，形成笔记．
有人说推导任意层MLP很容易，我表示怀疑啊．难道又是我智商的问题嘛╮（╯＿╰）╭．
推导神经网络，我用了一天．最后完成了，我就放心了，可以进行下一部分学习了：）
推这玩意是个脏活累活，直接记住向量化表示(结果)也是极好的.
顺便说一下，本文的图片若看不清，可以另存为本地文件放大看(scan的时候我定了较高的精度)，更清楚^^

该笔记目的为：记录推导过程，供自己复习．

0. 为推导顺利而总结的经验

该部分内容是我推导后才总结的．但我觉得应该放在最前面，最显眼的位置，里面的内容还是很重要的．

1. 搭建实例，明确符号系统，理顺正向、反向传播过程，明确 loss function

需要说明的是，loss function, dAL和任务有关．
我们模型输出层就１个单元，且为sigmoid单元. (原因是假定模型要跑一个二分类任务)
其他层用什么单元就无所谓了（我们的符号系统都能表示，如(A^{[l]}=g^{[l]}(Z^{[l]}))里面的(g^{[l]}(cdot))表示的就是模型中第(l)层所用的 activation function），如 sigmoid, relu, tanh单元或其他改进的relu单元．这些东西在吴老师的课程中都有详细讲解．

2. 考察dAL

3. 与大牛不符之dAL中的(frac{1}{m})为啥消失了？

dAL中的(frac{1}{m})为啥消失了？吴老师的推导中是没有(frac{1}{m})的，而我的推导里是有的．和超级大牛的答案不符，那就是我错了？（我错的地方请指出，谢谢啦）
**这个问题解决了，我的推导是对的！原因是：2017.11.13这天，我正在做吴恩达深度学习工程师第二课第一周编程作业，发现Ng老师提供的init_utils.py文件里的 backward_propagation(X, Y, cache)函数（关于一个三隐层神经网络的反向传播函数）中有这样一句话：dz3 = 1./m * (a3 - Y)，因此，我的推导是正确的，dAL应该有(frac{1}{m})这一项.
另外，根据链式法则，dAL若有1/m，那么后续的 dZ, dW, db就都不需要加1/m了．Andrew Ng 老师第一门课中，虽然 dAL 没有加 1/m，但后续的 dW, db都分别加了 1/m, 结果也是对的．
** init_utils.py的函数 backward_propagation(X, Y, cache)的完整代码如下：
```
def backward_propagation(X, Y, cache):
    """
    Implement the backward propagation presented in figure 2.
    
    Arguments:
    X -- input dataset, of shape (input size, number of examples)
    Y -- true "label" vector (containing 0 if cat, 1 if non-cat)
    cache -- cache output from forward_propagation()
    
    Returns:
    gradients -- A dictionary with the gradients with respect to each parameter, activation and pre-activation variables
    """
    m = X.shape[1]
    (z1, a1, W1, b1, z2, a2, W2, b2, z3, a3, W3, b3) = cache
    
    dz3 = 1./m * (a3 - Y)  # <----------- 就是这句话，表明我的推导是正确的．
    dW3 = np.dot(dz3, a2.T)
    db3 = np.sum(dz3, axis=1, keepdims = True)
    
    da2 = np.dot(W3.T, dz3)
    dz2 = np.multiply(da2, np.int64(a2 > 0))
    dW2 = np.dot(dz2, a1.T)
    db2 = np.sum(dz2, axis=1, keepdims = True)
    
    da1 = np.dot(W2.T, dz2)
    dz1 = np.multiply(da1, np.int64(a1 > 0))
    dW1 = np.dot(dz1, X.T)
    db1 = np.sum(dz1, axis=1, keepdims = True)
    
    gradients = {"dz3": dz3, "dW3": dW3, "db3": db3,
                 "da2": da2, "dz2": dz2, "dW2": dW2, "db2": db2,
                 "da1": da1, "dz1": dz1, "dW1": dW1, "db1": db1}
    
    return gradients
```
我的推导：

4. 假定吴老师正确推导了dAL的前提下，推导dZL

5. (dZ^{[l]})推(dW^{[l]})(上)

推导dW以及后续参数时，我只管每一步有意义(仔细看笔记，您就能明白我的意思)，并能编程实现(虽然不是向量化的). 但最后推导的结果是可以向量化表示的(就能向量化编程喽)！

6. (dZ^{[l]})推(dW^{[l]})(中)

7. (dZ^{[l]})推(dW^{[l]})(下)

8. (dZ^{[l]})推(db^{[l]})

9. (dZ^{[l]})推(dA^{[l-1]})(上)

10. (dZ^{[l]})推(dA^{[l-1]})(下)

11. (dA^{[l]})推(dZ^{[l]})
查看全文

相关阅读:
sybase数据库破解
 原生js实现音乐列表（隔行换色、全选）
原生JavaScript实现评分效果
 原生javascript实现选项卡（基础版）
LeetCode【111. 二叉树的最小深度】
LeetCode【110. 平衡二叉树】
LeetCode【108. 将有序数组转换为二叉搜索树】
LeetCode【101. 对称二叉树】
LeetCode【104. 二叉树的最大深度】
持续更新scrapy的错误，ValueError: Missing scheme in request url: