zoukankan      html  css  js  c++  java
  • 吴恩达深度学习 第一课第四周课后编程作业 assignment4_1

    Building your Deep Neural Network: Step by Step

    本文作业是在jupyter notebook上一步一步做的,带有一些过程中查找的资料等(出处已标明)并翻译成了中文,如有错误,欢迎指正!

    欢迎来到第四周作业(第二部分的第一部分)!您之前已经训练了一个两层的神经网络(只有一个隐藏层)。这周,你将构建一个深度神经网络,你想要多少层就有多少层!

    •在本笔记本中,您将实现构建深度神经网络所需的所有功能(函数)。
    •在下一个作业中,你将使用这些函数来建立一个用于图像分类深度神经网络。

    完成这项任务后,您将能够:

    •使用非线性单元,比如ReLU来改进你的模型
    •构建更深层次的神经网络(隐含层超过1层)
    •实现一个易于使用的神经网络类

    符号:

    就是上标的【l】代表第l层,上标的【i】代表第i个样本,下标的 i 代表第 i 个条目

    1 - Packages 包

    让我们首先导入在此任务中需要的所有包。

    ·numpy是使用Python进行科学计算的主要包。
    ·matplotlib是一个用Python绘制图形的库。
    ·dnn_utils为本笔记本提供了一些必要的函数。
    ·testCases提供了一些测试用例来评估函数的正确性
    ·seed(1)用于保持所有随机函数调用的一致性。它将帮助我们批改你的作业。请不要换种子。

    import numpy as np
    import h5py #h5py是Python语言用来操作HDF5的模块。
    import matplotlib.pyplot as plt
    from testCases_v2 import *
    from dnn_utils_v2 import sigmoid, sigmoid_backward, relu, relu_backward
    
    %matplotlib inline
    plt.rcParams['figure.figsize'] = (5.0, 4.0) # set default size of plots
    plt.rcParams['image.interpolation'] = 'nearest'
    plt.rcParams['image.cmap'] = 'gray'
    
    %load_ext autoreload
    %autoreload 2
    
    np.random.seed(1)

    python库——h5py入门讲解,来自,链接:https://blog.csdn.net/csdn15698845876/article/details/73278120

    %load_ext autoreload是什么意思:在执行用户代码前,重新装入 软件的扩展和模块。autoreload 意思是自动重新装入。它后面可带参数。参数意思你要查你自己的版本帮助文件。一般说:
    无参:装入所有模块。
    0:不执行 装入命令。
    1: 只装入所有 %aimport 要装模块
    2:装入所有 %aimport 不包含的模块。  

    2 - Outline of the Assignment(作业大纲)

    要构建神经网络,您将实现几个“辅助函数”。这些辅助函数将用于下一个任务,以建立一个两层神经网络一个L层神经网络。您将实现的每个小助手函数都有详细的说明,这些说明将指导您完成必要的步骤。这是这个作业的大纲,你会:

    •初始化一个二层网络和一个L层神经网络的参数
    •实现转发模块(下图中用紫色显示)。

      ◾完成一层的线性部分的向前传播步骤(得到Z [l]

      ◾我们给你激活函数(relu /sigmoid)

      ◾将前两步骤组合成一个新的函数【线性- >激活转发】

      ◾堆栈(线性- > RELU)提出时间 L - 1 函数(通过L - 1层1)并添加一个(线性- >sigmoid),最后(最后一层L)。这将为您提供一个新的L_model_forward函数。

    •计算损失。

    •实现反向传播模块(下图中用红色表示)。

      ◾完成一层的向后传播的线性部分的步骤。

      ◾我们给你激活函数的梯度(relu_backward / sigmoid_backward)

      ◾将前两步骤组合成一个新的线性- >激活 反向功能。

      ◾堆栈(线性- > RELU)向后  并添加l - 1倍(线性- >乙状结肠)向后一个新的L_model_backward函数

    •最后更新参数。

     **Figure 1**

     

    注意,对于每个前向函数,都有一个对应的后向函数。这就是为什么在向前(前向)模块的每一步都要在缓存中存储一些值。缓存的值对于计算梯度很有用。在反向传播模块中,您将使用缓存计算梯度。这个作业将确切地告诉你如何执行这些步骤中的每一步。

     

     

    3 - Initialization 初始化

    您将编写两个帮助函数初始化模型的参数。第一个函数将用于初始化一个两层模型的参数。第二种方法将这个初始化过程推广到L层。

    3.1 - 2-layer Neural Network(2层神经网络)

    练习:创建并初始化两层神经网络的参数。

    说明:

    •模型结构为:LINEAR -> RELU -> LINEAR -> SIGMOID。
    •对权重矩阵使用随机初始化。使用np.random.randn(shape)*0.01表示正确的形状。
    •对偏差使用零初始化。使用np.zeros(形状)。

     1 # GRADED FUNCTION: initialize_parameters
     2 
     3 def initialize_parameters(n_x, n_h, n_y):
     4     """
     5     Argument:
     6     n_x -- size of the input layer
     7     n_h -- size of the hidden layer
     8     n_y -- size of the output layer
     9     
    10     Returns:
    11     parameters -- python dictionary containing your parameters:
    12                     W1 -- weight matrix of shape (n_h, n_x)
    13                     b1 -- bias vector of shape (n_h, 1)
    14                     W2 -- weight matrix of shape (n_y, n_h)
    15                     b2 -- bias vector of shape (n_y, 1)
    16     """
    17     
    18     np.random.seed(1)
    19     
    20     ### START CODE HERE ### (≈ 4 lines of code)
    21     W1 = np.random.randn(n_h, n_x)*0.01
    22     b1 = np.zeros((n_h, 1))
    23     W2 = np.random.randn(n_y, n_h)*0.01
    24     b2 = np.zeros((n_y, 1))
    25     ### END CODE HERE ###
    26     
    27     assert(W1.shape == (n_h, n_x))
    28     assert(b1.shape == (n_h, 1))
    29     assert(W2.shape == (n_y, n_h))
    30     assert(b2.shape == (n_y, 1))
    31     
    32     parameters = {"W1": W1,
    33                   "b1": b1,
    34                   "W2": W2,
    35                   "b2": b2}
    36     
    37     return parameters    
    # GRADED FUNCTION: initialize_parameters
    parameters = initialize_parameters(2,2,1)
    print("W1 = " + str(parameters["W1"]))
    print("b1 = " + str(parameters["b1"]))
    print("W2 = " + str(parameters["W2"]))
    print("b2 = " + str(parameters["b2"]))

    结果:

     3.2 - L-layer Neural Network L层的神经网络

    更深的L层神经网络的初始化更加复杂,因为有更多的权值矩阵偏差向量。在完成initialize_parameters_deep时,应该确保各层之间的维度匹配。回想一下,n [l]是 l 层中的单元数。例如,如果我们的输入X的大小是(12288,209)(m=209个例子)那么:

     记住,当我们用python计算WX+b时,它执行广播机制 。例如,如果:

     

     

    练习:实现L层神经网络的初始化。

    说明:

    •The model’s structure is [LINEAR -> RELU] × (L-1) -> LINEAR -> SIGMOID. I.e., it has L−1 layers using a ReLU activation function followed by an output layer with a sigmoid activation function.
    •对权重矩阵使用随机初始化。使用np.random.rand(shape) * 0.01。

    •对偏差使用零初始化。使用np.zeros(形状)。

    •我们将存储n[l],不同层的单位数量,在一个变量layer_dims中。例如,上周的“平面数据分类模型”的layer_dims应该是[2,4,1]:有两个输入,一个隐含层有4个隐含单元,一个输出层有1个输出单元。即W1的形状为(4,2),b1为(4,1),W2为(1,4),b2为(1,1)。现在你可以将它推广到L层!

    •这是L=1(一层神经网络)的实现。它会启发你实现一般情况(l层神经网络)。

    if L == 1:
          parameters["W" + str(L)] = np.random.randn(layer_dims[1], layer_dims[0]) * 0.01
          parameters["b" + str(L)] = np.zeros((layer_dims[1], 1))
    # GRADED FUNCTION: initialize_parameters_deep
    
    def initialize_parameters_deep(layer_dims):
        """
        Arguments:
        layer_dims -- python array (list) containing the dimensions of each layer in our network
        
        Returns:
        parameters -- python dictionary containing your parameters "W1", "b1", ..., "WL", "bL":
                        Wl -- weight matrix of shape (layer_dims[l], layer_dims[l-1])
                        bl -- bias vector of shape (layer_dims[l], 1)
        """
        
        np.random.seed(3)
        parameters = {}
        L = len(layer_dims)            # number of layers in the network
    
        for l in range(1, L):
            ### START CODE HERE ### (≈ 2 lines of code)
            parameters['W' + str(l)] = np.random.randn(layer_dims[l], layer_dims[l-1]) * 0.01
            parameters['b' + str(l)] = np.zeros((layer_dims[l], 1))
            ### END CODE HERE ###
            
            assert(parameters['W' + str(l)].shape == (layer_dims[l], layer_dims[l-1]))
            assert(parameters['b' + str(l)].shape == (layer_dims[l], 1))
    
            
        return parameters
    # GRADED FUNCTION: initialize_parameters_deep
    parameters = initialize_parameters_deep([5,4,3])
    print("W1 = " + str(parameters["W1"]))
    print("b1 = " + str(parameters["b1"]))
    print("W2 = " + str(parameters["W2"]))
    print("b2 = " + str(parameters["b2"]))

    结果:

    4 - Forward propagation module 前向传播模块

    4.1 - Linear Forward 线性向前

    现在您已经初始化了参数,您将实现向前传播模块。您将从实现一些基本功能开始,稍后在实现模型时将使用这些功能。您将按此顺序完成三个功能:

    •线性
    •线性->激活,其中激活为ReLU或Sigmoid。
    •[LINEAR -> RELU] * (L-1) -> LINEAR -> SIGMOID(全模型)

    线性向前模块(对所有例子进行矢量化)计算如下方程:Z [l] =W [l] A [l−1]+b [l]              (4)      这里 A [0] =X

    练习:建立正向传播的线性部分。

    提示:该单位的数学表示为Z[l]=W[l]A[l−1]+b[l]。您可能还会发现np.dot()很有用。如果尺寸不匹配,打印W的形状可能会有所帮助。

    # GRADED FUNCTION: linear_forward
    
    def linear_forward(A, W, b):
        """
        Implement the linear part of a layer's forward propagation.
    
        Arguments:
        A -- activations from previous layer (or input data): (size of previous layer, number of examples)
        W -- weights matrix: numpy array of shape (size of current layer, size of previous layer)
        b -- bias vector, numpy array of shape (size of the current layer, 1)
    
        Returns:
        Z -- the input of the activation function, also called pre-activation parameter 
        cache -- a python dictionary containing "A", "W" and "b" ; stored for computing the backward pass efficiently
        """
        
        ### START CODE HERE ### (≈ 1 line of code)
        Z = np.dot(W, A) + b
        ### END CODE HERE ###
        
        assert(Z.shape == (W.shape[0], A.shape[1]))
        cache = (A, W, b)
        
        return Z, cache
    # GRADED FUNCTION: linear_forward
    A, W, b = linear_forward_test_case()
    
    Z, linear_cache = linear_forward(A, W, b)
    print("Z = " + str(Z))

    结果:

     

    4.2 - Linear-Activation Forward 正向线性激活

    在本笔记本中,您将使用两个激活函数:

    Sigmoid:σ(Z) =σ(WA + b) = 。我们已经提供了sigmoid函数。这个函数返回两个项:激活值“a”包含“Z”的“缓存”(我们将把它输入到相应的向后函数)。要使用它,你可以打称呼:

    A, activation_cache = sigmoid(Z)

    ReLU:ReLu的数学公式为A= ReLu (Z)=max(0,Z)。我们为您提供了relu功能。这个函数返回两个项:激活值“A”包含“Z”的“缓存”(我们将把它输入到相应的向后函数)。要使用它,你可以打称:

    A, activation_cache = relu(Z)

    为了更方便,将两个函数(线性和激活)组合为一个函数(线性->激活)。因此,您将实现一个函数,它执行线性向前步骤,然后执行激活向前步骤。

    Exercise:实现线性->激活层的正向传播。数学关系为:A[l]=g(Z[l])=g(W[l]A[l−1]+b[l]),其中活化“g”可以是sigmoid()或relu()。使用linear_forward()和正确的激活函数。

     1 # GRADED FUNCTION: linear_activation_forward
     2 
     3 def linear_activation_forward(A_prev, W, b, activation):
     4     """
     5     Implement the forward propagation for the LINEAR->ACTIVATION layer
     6 
     7     Arguments:
     8     A_prev -- activations from previous layer (or input data): (size of previous layer, number of examples)
     9     W -- weights matrix: numpy array of shape (size of current layer, size of previous layer)
    10     b -- bias vector, numpy array of shape (size of the current layer, 1)
    11     activation -- the activation to be used in this layer, stored as a text string: "sigmoid" or "relu"
    12 
    13     Returns:
    14     A -- the output of the activation function, also called the post-activation value 
    15     cache -- a python dictionary containing "linear_cache" and "activation_cache";
    16              stored for computing the backward pass efficiently
    17     """
    18     
    19     if activation == "sigmoid":
    20         # Inputs: "A_prev, W, b". Outputs: "A, activation_cache".
    21         ### START CODE HERE ### (≈ 2 lines of code)
    22         Z, linear_cache = linear_forward(A_prev, W, b) #前面linear_forward已经写好了
    23         A, activation_cache = sigmoid(Z)
    24         ### END CODE HERE ###
    25     
    26     elif activation == "relu":
    27         # Inputs: "A_prev, W, b". Outputs: "A, activation_cache".
    28         ### START CODE HERE ### (≈ 2 lines of code)
    29         Z, linear_cache = linear_forward(A_prev, W, b)
    30         A, activation_cache = relu(Z)
    31         ### END CODE HERE ###
    32     
    33     assert (A.shape == (W.shape[0], A_prev.shape[1]))
    34     cache = (linear_cache, activation_cache)
    35 
    36     return A, cache
    # GRADED FUNCTION: linear_activation_forward
    A_prev, W, b = linear_activation_forward_test_case()
    
    A, linear_activation_cache = linear_activation_forward(A_prev, W, b, activation = "sigmoid")
    print("With sigmoid: A = " + str(A))
    
    A, linear_activation_cache = linear_activation_forward(A_prev, W, b, activation = "relu")
    print("With ReLU: A = " + str(A))

    结果:

    注:在深度学习中,“[LINEAR->ACTIVATION]”计算在神经网络中被视为单层,而不是两层。

    d) L-Layer Model 层数为L 的模型

    在实现L层神经网络时,为了更加方便,您将需要一个函数复制前一个(RELU的linear_activation_forward) L−1倍,然后再使用一个SIGMOID的linear_activation_forward。

    **Figure 2** : *[LINEAR -> RELU]

    练习:实现上述模型的正向传播。

    指令:在下面的代码中,变量AL将表示A [L]=σ(Z[L])=σ(W[L]A[L−1]+b[L]).有时候这也叫Yhat

    提示:

    •使用之前编写的函数
    •使用for循环复制[LINEAR->RELU] (L-1)次
    •不要忘记跟踪“缓存”列表中的缓存。要向列表添加新值c,可以使用list.append(c)

     1 # GRADED FUNCTION: L_model_forward
     2 
     3 def L_model_forward(X, parameters):
     4     """
     5     Implement forward propagation for the [LINEAR->RELU]*(L-1)->LINEAR->SIGMOID computation
     6     
     7     Arguments:
     8     X -- data, numpy array of shape (input size, number of examples)
     9     parameters -- output of initialize_parameters_deep()
    10     
    11     Returns:
    12     AL -- last post-activation value
    13     caches -- list of caches containing:
    14                 every cache of linear_relu_forward() (there are L-1 of them, indexed from 0 to L-2)
    15                 the cache of linear_sigmoid_forward() (there is one, indexed L-1)
    16     """
    17 
    18     caches = []
    19     A = X
    20     L = len(parameters) // 2                  # number of layers in the neural network
    21     
    22     # Implement [LINEAR -> RELU]*(L-1). Add "cache" to the "caches" list.
    23     for l in range(1, L):
    24         A_prev = A 
    25         ### START CODE HERE ### (≈ 2 lines of code)
    26         A, cache = linear_activation_forward(A_prev, parameters['W' + str(l)], parameters['b'+str(l)], activation = "relu")
    27         caches.append(cache)
    28 
    29         ### END CODE HERE ###
    30     
    31     # Implement LINEAR -> SIGMOID. Add "cache" to the "caches" list.
    32     ### START CODE HERE ### (≈ 2 lines of code)
    33     AL, cache = linear_activation_forward(A, parameters['W'+str(L)], parameters['b'+str(L)], activation = "sigmoid")
    34     caches.append(cache)
    35     ### END CODE HERE ###
    36     
    37     assert(AL.shape == (1,X.shape[1]))
    38             
    39     return AL, caches
    # GRADED FUNCTION: L_model_forward
    X, parameters = L_model_forward_test_case()
    AL, caches = L_model_forward(X, parameters)
    print("AL = " + str(AL))
    print("Length of caches list = " + str(len(caches)))

    结果:

    太棒了!现在您有了一个完全的正向传播,它接受输入X并输出包含您的预测的行向量a [L]。它还记录了“缓存”中的所有中间值。使用A[L],您可以计算您的预测的成本。

    5- Cost function 成本函数

    现在您将实现向前和向后传播。你需要计算成本,因为你想检查你的模型是否真的在学习。

    练习:计算交叉熵代价J,公式如下:

     1 # GRADED FUNCTION: compute_cost
     2 
     3 def compute_cost(AL, Y):
     4     """
     5     Implement the cost function defined by equation (7).
     6 
     7     Arguments:
     8     AL -- probability vector corresponding to your label predictions, shape (1, number of examples)
     9     Y -- true "label" vector (for example: containing 0 if non-cat, 1 if cat), shape (1, number of examples)
    10 
    11     Returns:
    12     cost -- cross-entropy cost
    13     """
    14     
    15     m = Y.shape[1]
    16 
    17     # Compute loss from aL and y.
    18     ### START CODE HERE ### (≈ 1 lines of code)
    19     cost = (-1 / m) * np.sum(Y * np.log(AL) + (1 - Y) * np.log(1 - AL), axis = 1, keepdims = True)
    20     ### END CODE HERE ###
    21     
    22     cost = np.squeeze(cost)      # To make sure your cost's shape is what we expect (e.g. this turns [[17]] into 17).
    23     assert(cost.shape == ())
    24     
    25     return cost
    # GRADED FUNCTION: compute_cost
    Y, AL = compute_cost_test_case()
    
    print("cost = " + str(compute_cost(AL, Y)))

    结果:

    6 - Backward propagation module 反向传播模块

    与前向传播一样,您将实现用于后向传播的辅助函数。记住,反向传播是用来计算关于参数的损失函数的梯度

    提示

     **Figure 3** : Forward and Backward propagation for *LINEAR->RELU->LINEAR->SIGMOID*

    *紫色块表示正向传播红色块表示反向传播

    现在,与前向传播类似,您将通过三个步骤构建向后传播:

    •线性向后
    •线性->激活逆向,激活计算ReLU或Sigmoid激活的导数
    •[LINEAR -> RELU] * (L-1) -> LINEAR -> SIGMOID - backward(整个模型)

    6.1 - Linear backward 线性向后

    对于第 l 层,线性部分就是:Z [l] =W [l] A [l−1] +b [l] (然后是激活)

    假设已经求出了导数

     **Figure 4**

    使用输入dZ [l]计算三个输出(dW [l]、db [l]、dA [l])。以下是你需要的公式:

      练习:使用上面的3个公式来实现linear_backward()。

     1 # GRADED FUNCTION: linear_backward
     2 
     3 def linear_backward(dZ, cache):
     4     """
     5     Implement the linear portion of backward propagation for a single layer (layer l)
     6 
     7     Arguments:
     8     dZ -- Gradient of the cost with respect to the linear output (of current layer l)
     9     cache -- tuple of values (A_prev, W, b) coming from the forward propagation in the current layer
    10 
    11     Returns:
    12     dA_prev -- Gradient of the cost with respect to the activation (of the previous layer l-1), same shape as A_prev
    13     dW -- Gradient of the cost with respect to W (current layer l), same shape as W
    14     db -- Gradient of the cost with respect to b (current layer l), same shape as b
    15     """
    16     A_prev, W, b = cache
    17     m = A_prev.shape[1]
    18     
    19     ### START CODE HERE ### (≈ 3 lines of code)
    20     dW = 1 / m * np.dot(dZ, A_prev.T)
    21     db = 1 / m * np.sum(dZ, axis = 1, keepdims = True)
    22     dA_prev = np.dot(W.T, dZ)
    23     ### END CODE HERE ###
    24     
    25     assert (dA_prev.shape == A_prev.shape)
    26     assert (dW.shape == W.shape)
    27     assert (db.shape == b.shape)
    28     
    29     return dA_prev, dW, db
    # GRADED FUNCTION: linear_backward
    # Set up some test inputs
    dZ, linear_cache = linear_backward_test_case()
    
    dA_prev, dW, db = linear_backward(dZ, linear_cache)
    print ("dA_prev = "+ str(dA_prev))
    print ("dW = " + str(dW))
    print ("db = " + str(db))

    结果:

    6.2 - Linear-Activation backward 向后的线性激活

    接下来,您将创建一个合并两个辅助函数的函数:linear_backward和激活linear_activation_backward的后退步骤

    为了帮助你实现linear_activation_backward,我们提供了两个向后的函数:

      sigmoid_backward:实现了SIGMOID单元的向后传播。你可以这样叫它:
        dZ = sigmoid_backward(dA, activation_cache)

      relu_backward:实现RELU单元的向后传播。你可以这样叫它:
        dZ = relu_backward(dA, activation_cache)

    如果g(.)是激活函数,则sigmoid_backward和relu_backward 计算的就是:

    练习:实现线性>激活层的反向传播

    # GRADED FUNCTION: linear_activation_backward
    
    def linear_activation_backward(dA, cache, activation):
        """
        Implement the backward propagation for the LINEAR->ACTIVATION layer.
        
        Arguments:
        dA -- post-activation gradient for current layer l 
        cache -- tuple of values (linear_cache, activation_cache) we store for computing backward propagation efficiently
        activation -- the activation to be used in this layer, stored as a text string: "sigmoid" or "relu"
        
        Returns:
        dA_prev -- Gradient of the cost with respect to the activation (of the previous layer l-1), same shape as A_prev
        dW -- Gradient of the cost with respect to W (current layer l), same shape as W
        db -- Gradient of the cost with respect to b (current layer l), same shape as b
        """
        linear_cache, activation_cache = cache
        
        if activation == "relu":
            ### START CODE HERE ### (≈ 2 lines of code)
            dZ = relu_backward(dA, activation_cache)
            dA_prev, dW, db = linear_backward(dZ, linear_cache)
            ### END CODE HERE ###
            
        elif activation == "sigmoid":
            ### START CODE HERE ### (≈ 2 lines of code)
            dZ = sigmoid_backward(dA, activation_cache)
            dA_prev, dW, db = linear_backward(dZ, linear_cache)
            ### END CODE HERE ###
        
        return dA_prev, dW, db
    # GRADED FUNCTION: linear_activation_backward
    AL, linear_activation_cache = linear_activation_backward_test_case()
    
    dA_prev, dW, db = linear_activation_backward(AL, linear_activation_cache, activation = "sigmoid")
    print ("sigmoid:")
    print ("dA_prev = "+ str(dA_prev))
    print ("dW = " + str(dW))
    print ("db = " + str(db) + "
    ")
    
    dA_prev, dW, db = linear_activation_backward(AL, linear_activation_cache, activation = "relu")
    print ("relu:")
    print ("dA_prev = "+ str(dA_prev))
    print ("dW = " + str(dW))
    print ("db = " + str(db))

    结果:

    6.3 - L-Model Backward 有L层的向后模型

    现在您将为整个网络实现反向函数。回想一下,在实现L_model_forward函数时,在每次迭代中存储一个包含(X、W、b和z)的缓存。因此,在L_model_backward函数中,您将从层L开始向后迭代所有隐藏层。在每一步中,您将使用层 l 的缓存值反向传播到层 l。下面的图5显示了反向传递。

     **Figure 5** : Backward pass

    **初始化反向传播**:要通过这个网络反向传播,我们知道输出是,A [L] =σ(Z [L] ). 因此,您的代码需要计算dAL = 要做到这一点,使用这个公式(由微积分推导,你不需要深入的知识):

    dAL = - (np.divide(Y, AL) - np.divide(1 - Y, 1 - AL)) # derivative of cost with respect to AL

    然后你可以使用激活后梯度dAL继续向后移动。如图5所示,现在可以将dAL输入到您实现的LINEAR->SIGMOID向后函数中(它将使用L_model_forward函数存储的缓存值)。在此之后,您将必须使用一个for循环来使用LINEAR->RELU backward函数迭代所有其他层。应该将每个dA、dW和db存储在梯度字典中。为此,使用以下公式:

    例如,对于l=3,这将在梯度[“dW3”]中存储dW [l]

    练习:实现[LINEAR->RELU] * (L-1) -> LINEAR-> SIGMOID模型的反向传播。

     1 # GRADED FUNCTION: L_model_backward
     2 
     3 def L_model_backward(AL, Y, caches):
     4     """
     5     Implement the backward propagation for the [LINEAR->RELU] * (L-1) -> LINEAR -> SIGMOID group
     6     
     7     Arguments:
     8     AL -- probability vector, output of the forward propagation (L_model_forward())
     9     Y -- true "label" vector (containing 0 if non-cat, 1 if cat)
    10     caches -- list of caches containing:
    11                 every cache of linear_activation_forward() with "relu" (it's caches[l], for l in range(L-1) i.e l = 0...L-2)
    12                 the cache of linear_activation_forward() with "sigmoid" (it's caches[L-1])
    13     
    14     Returns:
    15     grads -- A dictionary with the gradients
    16              grads["dA" + str(l)] = ...
    17              grads["dW" + str(l)] = ...
    18              grads["db" + str(l)] = ...
    19     """
    20     grads = {}
    21     L = len(caches) # the number of layers 求出层数 前L-2个是“relu”,第L-1层是“sigmoid”
    22     m = AL.shape[1] #样本数
    23     Y = Y.reshape(AL.shape) # after this line, Y is the same shape as AL 使Y和AL的形状一样
    24 
    25     # Initializing the backpropagation
    26     ### START CODE HERE ### (1 line of code)
    27     dAL = - (np.divide(Y, AL) - np.divide(1 - Y, 1 - AL)) 
    28     ### END CODE HERE ###
    29     
    30     # Lth layer (SIGMOID -> LINEAR) gradients. Inputs: "AL, Y, caches". Outputs: "grads["dAL"], grads["dWL"], grads["dbL"]
    31     #这边是第L层,就是最后一层,使用的是sigmiod激活函数
    32     ### START CODE HERE ### (approx. 2 lines)
    33     current_cache = caches[L - 1]
    34     grads["dA" + str(L)], grads["dW" + str(L)], grads["db" + str(L)] = linear_activation_backward(dAL, current_cache, activation = "sigmoid")
    35     ### END CODE HERE ###
    36     
    37     for l in reversed(range(L - 1)):
    38         # lth layer: (RELU -> LINEAR) gradients.
    39         # Inputs: "grads["dA" + str(l + 2)], caches". Outputs: "grads["dA" + str(l + 1)] , grads["dW" + str(l + 1)] , grads["db" + str(l + 1)] 
    40         ### START CODE HERE ### (approx. 5 lines)
    41         current_cache = caches[l]
    42         dA_prev_temp, dW_temp, db_temp = linear_activation_backward(grads["dA" + str(l + 2)], current_cache, activation = "relu")
    43         grads["dA" + str(l + 1)] = dA_prev_temp
    44         grads["dW" + str(l + 1)] = dW_temp
    45         grads["db" + str(l + 1)] = db_temp
    46         ### END CODE HERE ###
    47 
    48     return grads
    # GRADED FUNCTION: L_model_backward
    AL, Y_assess, caches = L_model_backward_test_case()
    grads = L_model_backward(AL, Y_assess, caches)
    print ("dW1 = "+ str(grads["dW1"]))
    print ("db1 = "+ str(grads["db1"]))
    print ("dA1 = "+ str(grads["dA1"]))

    结果:

    6.4 - Update Parameters 更新参数

    在本节中,你将使用梯度下降更新模型的参数:

    这是 α 是学习速率,计算更新后的参数后,将它们存储在参数字典中。

    练习:实现update_parameters()来使用梯度下降更新参数

    说明:对于l=1,2,…,l,每个W [l]和b [l]使用梯度下降更新参数。

     1 # GRADED FUNCTION: update_parameters
     2 
     3 def update_parameters(parameters, grads, learning_rate):
     4     """
     5     Update parameters using gradient descent
     6     
     7     Arguments:
     8     parameters -- python dictionary containing your parameters 
     9     grads -- python dictionary containing your gradients, output of L_model_backward
    10     
    11     Returns:
    12     parameters -- python dictionary containing your updated parameters 
    13                   parameters["W" + str(l)] = ... 
    14                   parameters["b" + str(l)] = ...
    15     """
    16     
    17     L = len(parameters) // 2 # number of layers in the neural network 因为这里参数是成对出现的eg:W1,b1
    18     
    19     # Update rule for each parameter. Use a for loop.
    20     ### START CODE HERE ### (≈ 3 lines of code)
    21     for l in range(L):
    22         parameters["W" + str(l+1)] = parameters["W" + str(l+1)] - learning_rate * grads["dW" + str(l + 1)]
    23         parameters["b" + str(l+1)] = parameters["b" + str(l+1)] - learning_rate * grads["db" + str(l + 1)]
    24     ### END CODE HERE ###
    25         
    26     return parameters
    # GRADED FUNCTION: update_parameters
    parameters, grads = update_parameters_test_case()
    parameters = update_parameters(parameters, grads, 0.1)
    
    print ("W1 = "+ str(parameters["W1"]))
    print ("b1 = "+ str(parameters["b1"]))
    print ("W2 = "+ str(parameters["W2"]))
    print ("b2 = "+ str(parameters["b2"]))

    结果:

    7 - Conclusion 结论

    祝贺您实现了构建深度神经网络所需的所有功能!

    我们知道这是一个漫长的任务,但如果继续前进,情况只会越来越好。作业的下一部分比较容易。

    在下一个作业中,你将把所有这些放在一起建立两个模型:

      A two-layer neural network

      An L-layer neural network

    实际上,您将使用这些模型来分类猫和非猫的图像!

    Z [l=W [l[l1+[l (4)

    作者:Agiroy_70

    本博客所有文章仅用于学习、研究和交流目的,欢迎非商业性质转载。

    博主的文章主要是记录一些学习笔记、作业等。文章来源也已表明,由于博主的水平不高,不足和错误之处在所难免,希望大家能够批评指出。

    博主是利用读书、参考、引用、抄袭、复制和粘贴等多种方式打造成自己的文章,请原谅博主成为一个无耻的文档搬运工!

  • 相关阅读:
    漂亮的自适应宽度的多色彩CSS图片按钮
    Qt中设置widget背景颜色/图片的注意事项(使用样式表 setStyleSheet())
    QT的父子Widget之间消息的传递(如果子类没有accept或ignore该事件,则该事件会被传递给其父亲——Qlabel与QPushButton的处理就不一样)
    QT内置的ICON资源
    QT事件过滤器(QT事件处理的5个层次:自己覆盖或过滤,父窗口过滤,Application过滤与通知)
    QMetaObject感觉跟Delphi的类之类有一拼,好好学一下
    POJ 1013 小水题 暴力模拟
    WMDestroy函数调用inherited,难道是为了调用子类覆盖函数?还有这样调用的?
    技术资深、还关注市场的几率较高
    有感,懂市场比懂产品重要,懂产品比懂技术重要——想起凡客诚品和YY语音了
  • 原文地址:https://www.cnblogs.com/hale547/p/13367739.html
Copyright © 2011-2022 走看看