神经网络与深度学习（2）：梯度下降算法和随机梯度下降算法

zoukankan html css js c++ java

神经网络与深度学习（2）：梯度下降算法和随机梯度下降算法

本文总结自《Neural Networks and Deep Learning》第1章的部分内容。

使用梯度下降算法进行学习（Learning with gradient descent）

1. 目标

我们希望有一个算法，能让我们找到权重和偏置，以至于网络的输出y(x) 能够拟合所有的训练输入x。

2. 代价函数（cost function）

定义一个Cost function (loss function, objective function): 目标函数，如下：

C: 被称为二次代价函数；有时也被称为均方误差或者MSE

w: weight 权重

b: bias 偏向

n: 训练数据集实例个数

x: 输入值

a: 输出值 (当x是输入时)

||v||: 向量v的模

C(w,b) 越小越好，输出的预测值和真实值差别越小越好。

那么我们的目标就转为：最小化C(w,b)。

我们训练神经网络的目的是找到能最小化二次代价函数C(w; b) 的权重和偏置。

3. 梯度下降

最小化问题可以用梯度下降解决（gradient descent)。

C(v) v有两个变量v1, v2，通常可以用微积分解决，如果v包含的变量过多，无法用微积分解决。

梯度下降算法工作的方式就是重复计算梯度∇C，然后沿着相反的方向移动，沿着山谷“滚落”。

即每下降到一个地方，就要计算下一步要往哪个方向下去。

权重和偏置的更新规则：

4. 随机梯度下降算法 (stochastic gradient descent)

实际中使用梯度下降算法会使学习变得相当缓慢。这是因为：

对于每个训练实例x, 都要计算梯度向量∇C。如果训练数据集过大，会花费很长时间，学习过程太慢。

所以实际中使用随机梯度下降算法 (stochastic gradient descent)。

基本思想: 从所有训练实例中取一个小的采样(sample): X1,X2,…,Xm (mini-batch)，来估计 ∇C, 大大提高学习速度。

如果样本够大，

代入更新方程：

然后，重新选择一个mini-batch用来训练，直到用完所有的训练实例，一轮epoch完成。

作者：tsianlgeo

出处：http://www.cnblogs.com/tsiangleo/

本文版权归作者和博客园共有，欢迎转载，未经同意须保留此段声明，且在文章页面明显位置给出原文链接。欢迎指正与交流。

查看全文

相关阅读:
JavaScript高级程序设计读书笔记（二）变量作用域和内存
 JavaScript高级程序设计读书笔记（一）基础概念
 angular6 + ng-zorro鹿途后台管理系统（三）项目升级改造 01 升级ng-zorro-antd到1.8+
angular6 + ng-zorro鹿途后台管理系统（三）环境变量配置
 angular6 + ng-zorro鹿途后台管理系统（二）项目结构规划
 angular6 + ng-zorro鹿途后台管理系统（一）
web-view——微信小程序嵌入H5
JS知识整理随笔（8） BOM
JS知识整理随笔（7） DOM事件
 基础信息论（复习）

原文地址：https://www.cnblogs.com/tsiangleo/p/6146911.html

神经网络与深度学习（2）：梯度下降算法和随机梯度下降算法

使用梯度下降算法进行学习（Learning with gradient descent）

1. 目标

2. 代价函数（cost function）

3. 梯度下降

4. 随机梯度下降算法 (stochastic gradient descent)