神经网络的梯度下降 - 走看看

zoukankan html css js c++ java

神经网络的梯度下降

单层神经网络的参数：w^[1] ，b^[1] ，w^[2] ，b^[2]

以及还包括n^[0]个输入特征，n^[1]个隐藏单元，n^[2]个输出单元

矩阵w^[1]的维度是（ n^[1]，n^[0] ）, b^[1]的维度是（ n^[1]，1 ），w^[2]的维度是（ n^[2]，n^[1] ），b^[2]的维度是（ n^[2^]，1 ）

成本函数 J（w^[1] ，b^[1] ，w^[2] ，b^[2] ）= 1/m Σ L( a^[2] , y )

在训练神经网络时，随机初始化参数很重要

repeat {

　　dw^[1] = dJ / dw^[1] , db^[1] = dJ / db^[1]

   w^[1] = w^[1] — αdw^[1]

　　b^[1] = b^[1] — αdb^[1]

　　w^[2] = w^[2] — αdw^[2]

　　 b^[2] = b^[2] — αdb^[2]

} //这是梯度下降的一次迭代循环

正向传播过程：

z^[1] = w^[1]x + b^[1]

A^[1] = g^[1]( z^[1] )

z^[2] = w^[2]x + b^[2]

A^[2] = g^[2]( z^[2] ) = σ( z^[2] )

反向传播过程：

dz^[2] = A^[2] - Y

dw^[2] = 1/m dz^[2]A^[1]T

db^[2] = 1/m np.sum( dz^[2] , axis = 1 , keepdims = True )    //这是python中用来对矩阵的一个维度求和，axis=1是指水平方向求和，而再加上

   keepdims就是防止python直接输出这些古怪的秩为1的数组。确保python输出的是矩

   阵，对于db^[2]这个向量输出的维度是（n,1）

dz^[1] = w^[2]Tdz^[2] * g^[1]' ( z^[1] ) //g^[1] ' 是导数

dw^[1] = 1/m dz^[1]x^T

db^[1] = 1/m np.sum( dz^[1] , axis = 1 , keepdims = True )

查看全文

相关阅读:
windows 乱码之 gbk 与 cp936
jdcli 在命令行反编译jar包
 建议博客园向独立博客提供发布到首页的服务
 IsByRef在什么情况下为true？
Hibernate里自定义UserType时取不到值的问题
 解决安装Visual Studio 2010 SP1时被NDP40KB2468871.exe补丁卡死以及mscorsvw.exe进程CPU占用率高的问题
 FROM WAS7/JDK5 TO WAS6/JDK4
C++山寨C#中的DataTable
程序员的自我修养读书笔记
 Web开发之路

原文地址：https://www.cnblogs.com/nhdmmdxq/p/9555698.html

Copyright © 2011-2022 走看看