zoukankan      html  css  js  c++  java
  • Andrew NgML第九&十章神经网络

     

    1.神经网络模型1

    图1

    这是一个神经网络的模型,通常设置一个x0,作为偏执单元或者偏置(bias)神经元。

    图2

    这里最后一句话,说的是系数矩阵θ,神经网络模型中,如果当前在j层有s_j个单元,在j+1层有s_j+1个单元,那么第j层的系数矩阵theta_j,是s_j+1(s_j +1)维的。

     //就像图中,三个公式,应该是每层其实都有一个偏置单元。s_j+1是因为输入层得到的结果要是隐含层的输入,隐含层有s_j+1个单元,(s_j +1)是+上本层的偏置单元。

    2.神经网络中的分类问题

     

    图3

    对于二分类的问题,输出层只有一个输出单元,对于多分类问题(k≥3),那么输出层就有k个输出单元。

     3.神经网络的代价函数

    图4

    首先第一项是对输出层的输出求和,每个都乘上yk;正则项,theta右上角的(l)表示的是层数,j表示的是第j行吧,也就是一共s_j+1行,i表示的是s_j列,那么一共是L-1层的相加。每一层都加上了一个偏置,但是在图中并没有画出。通常正则化项都不把偏置项加入到其中,但是加入了之后影响也不大。

     4.反向传播算法

     

    图5

    首先就是需要计算每个单元的误差,怎么计算呢?如图,输出层也就是第4层,就等于当前的计算结果-实际结果;第三层的误差,第三层权重矩阵转置*第四层误差向量*激活函数的导数。

    图中还给了一个公式就是——求偏导项的公式——代价函数的对每层权重矩阵单个,求导的公式=l层第j个节点的值*l+1层第i个节点的误差。 (证明过程十分复杂)

    图7

    z这里代表的是:每层的计算结果,代入激活函数之后就可以作为下一层神经元的输入。是三维的。

    以下为伪代码:

     

    图8

     将所有误差(三角形的是希腊字符delta的大写形式)都初始化为0,循环m次,最终▲(l)_ij得到的是m个样本中a(l)j(l+1)i之和(也就是偏导数之和)。红笔圈画部分是将其转化成矩阵形式的运算,那这么说这个大三角形就应该是(l+1)*(l),因为它正是用来计算。得出代价函数的所有偏导数之后,就可以使用递归下降或者其他的方法来计算。

    图9

    1.误差=代价函数对中间项的偏导数,反向传播算法是反向计算每个点的误差。

    2.如图中红框内的内容,反向传播时如何计算第二层第二个单元误差,那么就是根据反向来计算,绿色部分是计算第三层第二个单元的,也是权重和下一层的单元的误差求和。这是一个反向计算的过程。 

     5.梯度检测

     为了确保使用BP算法得到的梯度矩阵是正确的,那么就使用手动计算的方法来通过计算导数来判断是否相等。

    图10

     使用数值方法来估计,在theta旁选一个很小的epsilon,那么下边的红色部分就是计算theta点的导数的公式。同样的道理对向量θ来说:

    图11.计算导数

     这些公式就是进行梯度检测,其中theta可能是神经网络中系数矩阵(权重矩阵)展开的结果,对theta中的每一个数(分量)求导。

    图12.梯度检测算法

     for循环,从1到n,前两句=计算theta_i+epsilon,后两句=theta_i-epsilon,再通过计算gradApprox,计算出大约梯度,再与DVec(BP算法中得到的)进行比较,如果大约相等的话, 就可以保证BP算法运行正确,但是在进行BP算法训练分类器之前就要确保此算法不再执行,因为它的执行速度非常慢。

    6.随机初始化

    图13.theta初始化为什么?

     在计算时需要使用初始化的theta,并且根据这个去使用BP算法来进行更新,最终得到theta,那么初试的theta设置成什么呢?初始化为0?这在逻辑回归中是可以的,但是BP算法中却不可以。

     

    图14.初始化情况(相等)

    如果将theta全部初始为0,那么图中蓝色线,绿色线,红色线,不论如何更新,各自都始终保持相等,对theta_01,theta_02偏导数相等,那么更新后的值也会保持相等,所以要使用随机初始化方法:

    图15.随机初始化,打破对称

    对每一个进行随机初始化到区间内,具体操作如15中下两式, 随机化创建一个10行11列的矩阵,值在[0,1],并且*2*epsilon-epsilon,那么最终值在[-ε,ε]之间。

     7.总体回顾

    图16.选择一个神经网络模型

     输入层中输入单元的个数就是特征的维数,输出层中输出单元的个数就是类别数;一些原则:最好隐含层只有一层,或者是多个隐含层并且每层的数目都相同,通常来说隐含层越多越好,但是计算量会变大;假如y有十个取值,那么输出层中输出单元个数就是10,并且若y=5,那么y=[0,0,0,0,1....]T,这样的取值。

    图17.训练一个神经网络

    初始化权重;使用前向算法获得对应输出结果;计算代价函数;使用后向算法来计算偏导数;实现时使用了for循环,对每一个样例来说都能进行上述的整个过程,整个过程重复了m次。

     

    图18.训练一个神经网络

    使用梯度下降检测BP中的梯度矩阵值,并且停止梯度检测算法;使用梯度下降或者其他最优化算法来使J(θ)变得最小。从下图中就可以看出:

    图19.梯度下降的直观表示

     当取到最小值时,也就是代价函数最小,那么模型输出与期望输出之间差值是最小的;当J(θ)很大时,二者相差很大,所以使用梯度下降一般可以得到最小值(局部最小值)。

     

  • 相关阅读:
    工程结构
    生活决策
    工作原则概要与列表
    生活原则概要与列表
    在Windows2008下安装SQL Server 2005无法启动服务的解决办法
    MySQL启动提示High Severity Error解决方案
    知乎页面颜色个性化修改
    博客园 CodingLife 模板 翻页样式美化方法
    【翻译】GitHub Pages Basics 基本使用帮助【一】GitHub Pages 是什么?
    【翻译】GitHub Pages Basics 基本使用帮助【首页】
  • 原文地址:https://www.cnblogs.com/BlueBlueSea/p/9392758.html
Copyright © 2011-2022 走看看