深度学习笔记 - 走看看

zoukankan html css js c++ java

深度学习笔记

RNN，LSTM，GRU都是序列学习的基本构建，GRU是对LSTM的简化，一般而言效果不如LSTM

在翻译这种场景下，seq2seq，也就是encoder-decoder的模式，encoder输出一个向量C作为decoder的输入

在sequence比较长的时间丢失信息严重，因此attention做了一个类似对encoder的每一个时间步做加权平均，获得对当前最有用的焦点信息；

作为decoder的每一步输出的一部分输入，其他的输入包括上一个时间步的隐状态，前一个输出；attention机制对序列学习是一个重要的方法和完善。

attention的加权平均机制中的权重怎么学习到？实际上你可以理解为一个函数，这个函数的输入1）encoder的每个时间步的状态s1 2）decoder的当前状态h1

将这两个s, h输入一个单层神经网络（W矩阵就是权重），通过sigmoid或者tanh变换得到一个0-1的概率值aij；BP的时候这个aij就会被反馈并更新；

也可以设计一些更复杂的函数，但基本逻辑都是类似的

体会：对于不懂得技术点，一定要多找，多搜，总有人能够搞明白并share到网上；

https://www.zhihu.com/question/54038778/answer/151744605

https://zhuanlan.zhihu.com/p/28054589

查看全文

相关阅读:
QQ在线人数图表
 使LumaQQ.NET支持接收长消息
 发现有趣的东东，Live Mail能自动显示人名
 关于转换QQ消息中系统表情，自定义表情和截图的函数
 使用Autofac，提示重写成员“Autofac.Integration.Mvc.AutofacDependencyResolver.GetService(System.Type)”时违反了继承安全性规则。重写方法的安全可访问性必须与所重写方法的安全可访问性匹配。
libvirt笔记（未完待续）
OpenStack Grizzly版本部署(离线)
git学习笔记
 MyEclipse 报错 Errors running builder 'JavaScript Validator' on project......
Response 关于浏览器header的方法

原文地址：https://www.cnblogs.com/painmoth/p/8275984.html

Copyright © 2011-2022 走看看