循环神经网络模型

zoukankan html css js c++ java

循环神经网络模型

整理并翻译自吴恩达深度学习系列视频：序列模型第一周，有所详略。

Recurrent Neural Network

一个标准的循环神经网络如图所示，在网络的每一个时间步 $t$ ，它接受前一层的激活函数值 $a^{<t-1>}$ 和输入 $x^{<t>}$ ，使用权值矩阵使用 $W_{aa}$ 和 $W_{ax}$ 计算 $a^{<t>}$ ，使用结果 $a^{<t>}$ 和权值矩阵 $W_{ya}$ 计算 $hat{y}^{<t>}$ ，计算方法如第二小节。

Forward Propagation

可总结为以下：
$a^{<t>}=g_1(W_{aa}a^{<t-1>}+W_{ax}x^{<t>}+b_a)$
$hat{y}^{<t>}=g_2(W_{ya}a^{<t>}+b_y)$
$g_1$ 可以使用 $t a n h$ 、 $R e L u$ ， $g_2$ 可以使用 $s i g m o i d$ 。

上图右边是向量化版本的实现，它将两个参数矩阵横向堆砌成 $W_{aa}|W_{ax}]$ 构成 $W_a$ ，将两个输入纵向堆砌成 $[frac{a^{<t-1>}}{x^{<t>}}]$ (横线表示分隔符不是除法)。

Backward Propagation

循环神经网络的反向传播同其他网络一致，按反方向计算导数，编程时框架会自动帮我们处理反向传播，但了解其基本原理也是有助益的。

如上图所示，需注意，每一个横向上的参数矩阵是共享的， $W_y、b_y$ 用于每次计算 $hat{y^{<t>}}$ ， $W_a、b_a$ 也用于每次计算 $x^{<t>}$ 。

其损失函数使用的是交叉熵(cross entropy loss)。
$mathcal{L}^{<t>}(hat{y}^{<t>},y^{<t>})=-y^{<t>}loghat{y}^{<t>}-(1-y^{<t>})log(1-hat{y}^{<t>}))$
$mathcal{L}(hat{y}^{<t>},y)=sum_{t=1}^{T}mathcal{L}^{<t>}(hat{y}^{<t>},y^{<t>})$

其他种类的RNN

根据输入和输出的对应关系，RNN有图示几种结构，即一对一、一对多、多对一、多堆多。

查看全文

相关阅读:
linux shell创建目录、遍历子目录
 linux shell写入单行、多行内容到文件
 如何起个好名字
 linux shell编程中的数组定义、遍历
 详解浏览器分段请求基础——Range，助你了解断点续传基础
 实现一个大文件上传和断点续传
 localStorage设置过期时间
 Python3 __slots__
Nginx 流量统计分析
 argparse简要用法总结

原文地址：https://www.cnblogs.com/wanghongze95/p/13842499.html

循环神经网络模型

Recurrent Neural Network

Forward Propagation

Backward Propagation

其他种类的RNN