zoukankan      html  css  js  c++  java
  • RNN Train和Test Mismatch

    李宏毅深度学习

    https://www.bilibili.com/video/av9770302/?p=8

    在看RNN的时候,你是不是也会觉得有些奇怪,

    Train的过程中,

    是把训练集中的结果作为下一步的输入

    目标函数,是每一步的真实输出和训练集结果的交叉熵

    Test的过程中,

    是直接把每一步的输出作为下一步的输入

    可以看到train和test的时候,每一步的输入是不一样的,这种不一致会带来什么问题?

    对上面的树形结构,

    表示学习的过程,如果网络完全正确的学习到我们的训练集,那就是左边的分支

    但如果网络只在第一步没有学对,选择了B,而不是A

    那么在test的时候,面对相同的句子,

    那么它第一步会选B,但我们之前大部分的学习到的知识都集中在左边的分支,而右边的分支在学习的时候没有碰到过

    所以对于网络后续的选择都只能乱选

    从这个例子可以看出来,这种mismatch所带来的问题

     那么问题是,为什么train的时候,不也把真实的输出作为下一步的输入?

    将真实输出作为下一步的输入,会导致网络很难训练

    原因是,真实的输出是会变化的,

    如上图,开始第一步的输出是B,那么第二步学到的是,输入是B的时候,我们也应该得到一个B

    但是随着train的继续,第一步的输出会变成A,趋向正确的结果,这样,之前在第二步学的知识就没有用了,

    所以对于训练过程中,我们需要保持condition的稳定性

    那到底应该怎么样做?

    Scheduled Sampling的方法就是每次用一个随机sampling来决定是用哪一个作为下一步的输入

    那这个方法不是也会有我们上面说的不稳定问题吗?

    注意上面的曲线图,这里sampling的概率是不断变化的,图表示的是用reference的概率随着训练次数的变化

    可以看出来,刚开始选reference的概率非常大,所以刚开始和普通的RNN训练没有区别

    但是随着训练次数的增多,慢慢的用model的概率会越来越大

    这样做的好处是啥,

    因为刚开始的时候model不稳定,所以用reference,但是随着训练的进行,model的输出越来越稳定,这时就换成用medel的输出来训练

    这样做的好处是,在condition相对稳定的情况下,又可以消除train和test的mismatch

  • 相关阅读:
    《C#从现象到本质》读书笔记(八)第10章反射
    《C#从现象到本质》读书笔记(七)第9章 泛型
    《C#从现象到本质》读书笔记(六)第8章委托和事件
    《C#从现象到本质》读书笔记(五)第5章字符串第6章垃圾回收第7章异常与异常处理
    求1+2+……+n的和
    回溯法的应用举例
    回溯法
    翻转单词顺序列
    左旋转字符串
    和为S的两个数字
  • 原文地址:https://www.cnblogs.com/fxjwind/p/9156918.html
Copyright © 2011-2022 走看看