zoukankan      html  css  js  c++  java
  • BN和dropout在预测和训练时的区别。

    Batch Normalization和Dropout是深度学习模型中常用的结构。但BN和dropout在训练和测试时使用却不相同。

    Batch Normalization

    BN在训练时是在每个batch上计算均值和方差来进行归一化,每个batch的样本量都不大,所以每次计算出来的均值和方差就存在差异。预测时一般传入一个样本,所以不存在归一化,其次哪怕是预测一个batch,但batch计算出来的均值和方差是偏离总体样本的,所以通常是通过滑动平均结合训练时所有batch的均值和方差来得到一个总体均值和方差。以tensorflow代码实现为例:

    def bn_layer(self, inputs, training, name='bn', moving_decay=0.9, eps=1e-5):
            # 获取输入维度并判断是否匹配卷积层(4)或者全连接层(2)
            shape = inputs.shape
            param_shape = shape[-1]
            with tf.variable_scope(name):
                # 声明BN中唯一需要学习的两个参数,y=gamma*x+beta
                gamma = tf.get_variable('gamma', param_shape, initializer=tf.constant_initializer(1))
                beta  = tf.get_variable('beat', param_shape, initializer=tf.constant_initializer(0))
    
                # 计算当前整个batch的均值与方差
                axes = list(range(len(shape)-1))
                batch_mean, batch_var = tf.nn.moments(inputs , axes, name='moments')
    
                # 采用滑动平均更新均值与方差
                ema = tf.train.ExponentialMovingAverage(moving_decay, name="ema")
    
                def mean_var_with_update():
                    ema_apply_op = ema.apply([batch_mean, batch_var])
                    with tf.control_dependencies([ema_apply_op]):           
                        return tf.identity(batch_mean), tf.identity(batch_var)
    
                # 训练时,更新均值与方差,测试时使用之前最后一次保存的均值与方差
                mean, var = tf.cond(tf.equal(training,True), mean_var_with_update,
                        lambda:(ema.average(batch_mean), ema.average(batch_var)))
    
                # 最后执行batch normalization
                return tf.nn.batch_normalization(inputs ,mean, var, beta, gamma, eps)

    training参数可以通过tf.placeholder传入,这样就可以控制训练和预测时training的值。

    self.training = tf.placeholder(tf.bool, name="training")

    Dropout

    Dropout在训练时会随机丢弃一些神经元,这样会导致输出的结果变小。而预测时往往关闭dropout,保证预测结果的一致性(不关闭dropout可能同一个输入会得到不同的输出,不过输出会服从某一分布。另外有些情况下可以不关闭dropout,比如文本生成下,不关闭会增大输出的多样性)。

    为了对齐Dropout训练和预测的结果,通常有两种做法,假设dropout rate = 0.2。一种是训练时不做处理,预测时输出乘以(1 - dropout rate)。另一种是训练时留下的神经元除以(1 - dropout rate),预测时不做处理。以tensorflow为例。

    x = tf.nn.dropout(x, self.keep_prob)
    self.keep_prob = tf.placeholder(tf.float32, name="keep_prob")

    tf.nn.dropout就是采用了第二种做法,训练时除以(1 - dropout rate),源码如下:

    binary_tensor = math_ops.floor(random_tensor)
     ret = math_ops.div(x, keep_prob) * binary_tensor
     if not context.executing_eagerly():
       ret.set_shape(x.get_shape())
     return ret

    binary_tensor就是一个mask tensor,即里面的值由0或1组成。keep_prob = 1 - dropout rate。

  • 相关阅读:
    Keras如何构造简单的CNN网络
    到底该如何入门Keras、Theano呢?(浅谈)
    PyCharm使用技巧记录(一)如何查看变量
    使用 环境变量 来配置批量配置apache
    QT静态链接
    NTP服务器
    debian添加sudo
    龙芯8089_D安装debian 8 iessie
    verilog 双向IO实现
    FPGA入门学习第一课:二分频器
  • 原文地址:https://www.cnblogs.com/jiangxinyang/p/14333903.html
Copyright © 2011-2022 走看看