zoukankan      html  css  js  c++  java
  • 深度学习笔记

    RNN,LSTM,GRU都是序列学习的基本构建,GRU是对LSTM的简化,一般而言效果不如LSTM
     
    在翻译这种场景下,seq2seq,也就是encoder-decoder的模式,encoder输出一个向量C作为decoder的输入
    在sequence比较长的时间丢失信息严重,因此attention做了一个类似对encoder的每一个时间步做加权平均,获得对当前最有用的焦点信息;
    作为decoder的每一步输出的一部分输入,其他的输入包括上一个时间步的隐状态,前一个输出;attention机制对序列学习是一个重要的方法和完善。
    attention的加权平均机制中的权重怎么学习到? 实际上你可以理解为一个函数,这个函数的输入1)encoder的每个时间步的状态s1 2)decoder的当前状态h1
    将这两个s, h输入一个单层神经网络(W矩阵就是权重),通过sigmoid或者tanh变换得到一个0-1的概率值aij;BP的时候这个aij就会被反馈并更新;
    也可以设计一些更复杂的函数,但基本逻辑都是类似的 
     
    体会:对于不懂得技术点,一定要多找,多搜,总有人能够搞明白并share到网上;
     
  • 相关阅读:
    子矩阵
    [Ahoi2008]Meet 紧急集合
    立体图
    CF933B A Determined Cleanup
    CF746G New Roads
    树的重量
    CF519E A and B and Lecture Rooms
    矩阵
    深入浅出乘法逆元
    20180519模拟赛T2——pretty
  • 原文地址:https://www.cnblogs.com/painmoth/p/8275984.html
Copyright © 2011-2022 走看看