zoukankan      html  css  js  c++  java
  • 深度学习笔记

    RNN,LSTM,GRU都是序列学习的基本构建,GRU是对LSTM的简化,一般而言效果不如LSTM
     
    在翻译这种场景下,seq2seq,也就是encoder-decoder的模式,encoder输出一个向量C作为decoder的输入
    在sequence比较长的时间丢失信息严重,因此attention做了一个类似对encoder的每一个时间步做加权平均,获得对当前最有用的焦点信息;
    作为decoder的每一步输出的一部分输入,其他的输入包括上一个时间步的隐状态,前一个输出;attention机制对序列学习是一个重要的方法和完善。
    attention的加权平均机制中的权重怎么学习到? 实际上你可以理解为一个函数,这个函数的输入1)encoder的每个时间步的状态s1 2)decoder的当前状态h1
    将这两个s, h输入一个单层神经网络(W矩阵就是权重),通过sigmoid或者tanh变换得到一个0-1的概率值aij;BP的时候这个aij就会被反馈并更新;
    也可以设计一些更复杂的函数,但基本逻辑都是类似的 
     
    体会:对于不懂得技术点,一定要多找,多搜,总有人能够搞明白并share到网上;
     
  • 相关阅读:
    ruby学习系列(1)
    学习调用WCF服务的各种方法
    Web Service简介
    ajax编程
    ReportView控件的使用
    .NET中26个优化性能方法
    图书管理前端页面
    图书管理后端接口
    Vue组件
    axios登录前端
  • 原文地址:https://www.cnblogs.com/painmoth/p/8275984.html
Copyright © 2011-2022 走看看