Deep Learning1:Sparse Autoencoder - 走看看

zoukankan html css js c++ java

Deep Learning1:Sparse Autoencoder
学习stanford的课程http://ufldl.stanford.edu/wiki/index.php/UFLDL_Tutorial 一个月以来，对算法一知半解，Exercise也基本上是复制别人代码，现在想总结一下相关内容

1. Autoencoders and Sparsity

稀释编码：Sparsity parameter

隐藏层的平均激活参数为 $extstyle ho$

$egin{align} hat ho_j = frac{1}{m} sum_{i=1}^m left[ a^{(2)}_j(x^{(i)}) ight] end{align}$

约束为

$egin{align} hat ho_j = ho, end{align}$

为实现这个目标，在cost Function上额外加上一项惩罚系数

$egin{align} sum_{j=1}^{s_2} ho log frac{ ho}{hat ho_j} + (1- ho) log frac{1- ho}{1-hat ho_j}. end{align}$

当 $egin{align} hat ho_j = ho, end{align}$ 此项达到最小值

此时cost Function

$egin{align} J_{ m sparse}(W,b) = J(W,b) + eta sum_{j=1}^{s_2} { m KL}( ho || hat ho_j), end{align}$

同时为了方便编程，将隐藏层时的后向传播参数也增加一项

$egin{align} delta^{(2)}_i = left( left( sum_{j=1}^{s_{2}} W^{(2)}_{ji} delta^{(3)}_j ight) + eta left( - frac{ ho}{hat ho_i} + frac{1- ho}{1-hat ho_i} ight) ight) f'(z^{(2)}_i) . end{align}$

为了得到Sparsity parameter，先对所有训练数据进行前向步骤，从而得到激活参数，再次前向步骤，进行反向传播调参，也就是要对所有训练数据进行两次的前向步骤

2.Backpropagation Algorithm

在计算过程中，简化了计算步骤
对于训练集 ${ (x^{(1)}, y^{(1)}), ldots, (x^{(m)}, y^{(m)}) }$ ，cost Function如下

$egin{align} J(W,b; x,y) = frac{1}{2} left| h_{W,b}(x) - y ight|^2. end{align}$

仅含方差项

$egin{align} J(W,b) &= left[ frac{1}{m} sum_{i=1}^m J(W,b;x^{(i)},y^{(i)}) ight] + frac{lambda}{2} sum_{l=1}^{n_l-1} ; sum_{i=1}^{s_l} ; sum_{j=1}^{s_{l+1}} left( W^{(l)}_{ji} ight)^2 \ &= left[ frac{1}{m} sum_{i=1}^m left( frac{1}{2} left| h_{W,b}(x^{(i)}) - y^{(i)} ight|^2 ight) ight] + frac{lambda}{2} sum_{l=1}^{n_l-1} ; sum_{i=1}^{s_l} ; sum_{j=1}^{s_{l+1}} left( W^{(l)}_{ji} ight)^2 end{align}$

第一部分是方差，第二部分是规范化项，也称为weight decay项，此公式为overall cost function

参数W,b的迭代公式如下

$egin{align} W_{ij}^{(l)} &= W_{ij}^{(l)} - alpha frac{partial}{partial W_{ij}^{(l)}} J(W,b) \ b_{i}^{(l)} &= b_{i}^{(l)} - alpha frac{partial}{partial b_{i}^{(l)}} J(W,b) end{align}$

α为学习率

那么，backpropagation algorithm在参数计算中极大提高了效率

目的：梯度下降法，迭代多次，得到优化参数

每次迭代都计算cost function和gradient，再进行下一次迭代

BP 前向传播后，定义误差项1.输出层是对cost function 对输出结果求导2.中间层下一层误差项与网络系数相乘，实现逆向推导

cost function分别对W,b求导如下

$egin{align} frac{partial}{partial W_{ij}^{(l)}} J(W,b) &= left[ frac{1}{m} sum_{i=1}^m frac{partial}{partial W_{ij}^{(l)}} J(W,b; x^{(i)}, y^{(i)}) ight] + lambda W_{ij}^{(l)} \ frac{partial}{partial b_{i}^{(l)}} J(W,b) &= frac{1}{m}sum_{i=1}^m frac{partial}{partial b_{i}^{(l)}} J(W,b; x^{(i)}, y^{(i)}) end{align}$

首先，对训练对象进行前向网络激活运算，得到网络输入值h_W,b(x)

接着，对网络层l 中每一个节点i ,计算误差项 $delta^{(l)}_i$ ，衡量该节点对于输出的误差所占权重，可用网络激活输出值与真实目标值之差来定义 $delta^{(n_l)}_i$ ， $a^{(l)}_i$

算法步骤如下
对于矩阵，在MATLAB中如下
注： $extstyle f(z)$ 为sigmoid函数，则 $extstyle f'(z^{(l)}_i) = a^{(l)}_i (1- a^{(l)}_i)$

在此基础上，梯度下降算法gradient descent algorithm步骤如下
3.Visualizing a Trained Autoencoder

用pixel intensity values可视化编码器

已知输出 $egin{align} a^{(2)}_i = fleft(sum_{j=1}^{100} W^{(1)}_{ij} x_j + b^{(1)}_i ight). end{align}$

约束 $extstyle ||x||^2 = sum_{i=1}^{100} x_i^2 leq 1$

定义pixel $extstyle x_j$ (for all 100 pixels, $extstyle j=1,ldots, 100$ )

$egin{align} x_j = frac{W^{(1)}_{ij}}{sqrt{sum_{j=1}^{100} (W^{(1)}_{ij})^2}}. end{align}$
查看全文

相关阅读:
MVP福利利用Azure虚拟机玩Windows Server 2012
负载均衡的基本算法
 RavenDB：基于Windows/.NET平台的NoSQL数据库
 使用Autofac在ASP.NET Web API上实现依赖注入
 Mono 3 的默认Gc是Sgen
MSDN 杂志 Windows 8 特刊
 AggSharp Agg的.NET 移植
 使用谷歌翻译/微软翻译迅速使你的博客支持多国语言
 Service Bus for Windows server
用Xwt构建跨平台应用程序[转载]

原文地址：https://www.cnblogs.com/learnmuch/p/5956888.html

Copyright © 2011-2022 走看看