Machine Learning

zoukankan html css js c++ java

Machine Learning

1. 回顾cost function

cost function for a neural network is:
$\begin{matrix} J (Θ) = - \frac{1}{m} \sum_{t = 1}^{m} \sum_{k = 1}^{K} [y_{k}^{(t)} \log (h_{Θ} (x^{(t)}))_{k} + (1 - y_{k}^{(t)}) \log (1 - h_{Θ} (x^{(t)})_{k})] + \frac{λ}{2 m} \sum_{l = 1}^{L - 1} \sum_{i = 1}^{s_{l}} \sum_{j = 1}^{s_{l} + 1} (Θ_{j, i}^{(l)})^{2} \end{matrix}$

simple non-multiclass classification (k = 1) and disregard regularization, the cost is computed with:

$c o s t (t) = y^{(t)} l o g (h_{Θ} (x^{(t)}) + (1 - y^{(t)}) l o g (1 - h_{Θ} (x^{(t)})$

The $δ_{j}^{(l)}$ is the error for $a_{j}^{(l)}$ ,
$δ_{j} (l) = \frac{\partial c o s t (t)}{\partial_{z_{j}^{(l)}}}$

2. 计算 $δ_{j}^{(l)}$

回顾一下前向传播，某一个节点的值是如何计算的。我们将把(xi，yi )输入到这个网络当中, $x_{i}^{1}$ 和 $x_{i}^{2}$ 将是我们对输入层的设置. 当我们进入第一个隐层，我们会计算 $z_{1}^{(2)}$ 和 $z_{2}^{(2)}$ .然后我们来用冲击函数计算他们的激励值有 $a_{1}^{(2)}$ 和 $a_{2}^{(2)}$ 。之后我们把这些值乘以相应的权重如 $θ_{10}^{(2)}$ , $θ_{11}^{(2)}$ , $θ_{12}^{(2)}$ 并赋予给 $z_{1}^{(3)}$ ，再使用sigmoid函数激活得到 $a_{1}^{(3)}$ 。类似的，我们一直得到 $z_{1}^{(4)}$ 和最后的结果 $a_{1}^{(4)}$ .

误差反向传播与正向传播很像，我们先看他的代价函数。考虑最简单的一个输出（K=1）的情况：
$\begin{matrix} J (Θ) = - \frac{1}{m} \sum_{t = 1}^{m} [y^{(t)} \log (h_{Θ} (x^{(t)})) + (1 - y^{(t)}) \log (1 - h_{Θ} (x^{(t)}))] + \frac{λ}{2 m} \sum_{l = 1}^{L - 1} \sum_{i = 1}^{s_{l}} \sum_{j = 1}^{s_{l} + 1} (Θ_{j, i}^{(l)})^{2} \end{matrix}$
不考虑正则化:

$J (Θ) = - \frac{1}{m} \sum_{t = 1}^{m} [y^{(t)} \log (h_{Θ} (x^{(t)})) + (1 - y^{(t)}) \log (1 - h_{Θ} (x^{(t)}))]$
上面简化的代价函数所做的事情就和下面的函数是一样的：
$c o s t (t) = y^{(t)} l o g (h_{Θ} (x^{(t)}) + (1 - y^{(t)}) l o g (1 - h_{Θ} (x^{(t)})$
这个函数的作用等价于逻辑回归时使用的均方误差，描述模型的输出和真实值的接近程度。

反向传播在做什么

首先，设置delta项 $δ_{1}^{(4)}$ ,正如我们对前向传播算法对训练数据i的做法一样。 $δ_{1}^{(4)} = a_{1}^{(4)} - y_{i}$ 就是我们预测结果和真实结果的误差。我们 $δ_{1}^{(4)}$ 反向传播回去，得到 $δ_{1}^{(3)}$ , $δ_{2}^{(3)}$ . 进一步往前，得到 $δ_{1}^{(2}$ 和 $δ_{2}^{(2)}$ . 看起来就像是前向传播,只不过我们现在反过来做了. 看看最后我们如何得到 $δ_{2}^{(2)}$ . 所以我们得到 $δ_{2}^{(2)}$ 和前向传播类似，它与权重 $Θ_{11}^{(2}$ 和 $Θ_{22}^{(2)}$ ，以及下一层的误差结果 $δ_{1}^{(3)}$ , $δ_{2}^{(3)}$ 相关，把这个值乘以它权值，最后做加权求和就得到了 $δ_{2}^{(2)}$ 。同理这里还要知道 $δ_{2}^{(3)}$ ，这就等于 $δ_{1}^{(4)}$ 乘以它的权重。我们一般不考虑偏置单元。

查看全文

相关阅读:
设计模式学习每日一记(1.简单工厂模式)
poj1068
设计模式学习每日一记(2.外观模式)
qooxdoo一句话备忘录［不断更新］
设计模式学习每日一记(4.抽象工厂)
C# 各种数据类型的最大值和最小值常数
 ASP.NET中实现二级或多级域名(修改UrlRewrite)
网站中定时发送邮件
 重提URL Rewrite（1）：IIS与ASP.NET
Server Application Unavailable 的解决方法

原文地址：https://www.cnblogs.com/siucaan/p/9623136.html

1. 回顾cost function

2. 计算δ(l)jδj(l)

2. 计算 $δ_{j}^{(l)}$