zoukankan      html  css  js  c++  java
  • dying relu 和weight decay

    weight decay就是在原有loss后面,再加一个关于权重的正则化,类似与L2 正则,让权重变得稀疏;

    参考:https://www.zhihu.com/question/24529483

    dying relu是当梯度值过大时,权重更新后为负数,经relu后变为0,导致后面也不再更新。

    三种办法:leak-relu、降低学习率、用 momentum based 优化算法,动态调整学习率

    参考:https://www.zhihu.com/question/67151971

    在训练模型时,有时候需要对新加入的数据进行finetune,但可能finetune不动了,这就有可能是kernel为0了(weight decay和 dying relu造成的)。

    解决的办法是,训练的时候固定scale。

    参考:https://zhuanlan.zhihu.com/p/61587832

     

    另参考

    为什么bn后不加bias:

    https://blog.csdn.net/u010698086/article/details/78046671

    https://blog.csdn.net/hjxu2016/article/details/81813535

    https://blog.csdn.net/elysion122/article/details/79628587

                                       

  • 相关阅读:
    会跳舞的树(只用HTML+CSS)(转)
    国内UED收录
    HDU 1078 dfs+dp
    HDU 1278
    HDU 4499
    HDU 4597
    POJ2777
    POJ1780 Code
    简单的Fleury算法模板
    POJ 2513 无向欧拉通路+字典树+并查集
  • 原文地址:https://www.cnblogs.com/573177885qq/p/11106870.html
Copyright © 2011-2022 走看看