zoukankan      html  css  js  c++  java
  • 【12】超参数及超参数的选择

    超参数

     主要的超参数是上面几个,最重要的是红色的 学习率,其次是黄色的  m-b尺寸、隐藏层层数、动量梯度下降的贝塔。

     左图是早期超参数选择的方法:以两个超参数的选择为例,在网格中均匀布置一些点,然后将这些点全部试一遍,哪个效果好用哪个。右图是之后有的随机选择点的方法,把随机选择的点全部试一遍,哪个好用哪个。这个是二维参数(两个参数)的情况,三个参数就要立体的了,更多参数就是更高维。

    另一个惯例是采用由粗糙到精细的策略,也许你会发现效果最好的某个点,这个点周围的其他一些点效果也很好。之后放大这块小区域,然后在其中更密集地取值,找更佳的参数点。

    为超参数选择合适的范围:

    如果我们猜测隐藏层的单元数的最佳值在50-100之间,神经网络层数的最优值在2-4之间,我们想找到这个最佳值,那么就要在这个区间中列出一些点,看看哪个效果更好,此时 取值方法用均匀取值较为合理。

     但是如果想找到学习率0.0001到1之间的最佳值,用均匀取值就不合适了。可以用对数取值,下面两个式子是在0.0001-1之间对数取值的方法。右图是更一般的方法,a是以10为底左端点的对数。b是以10为底右端点的对数,r在a、b之间均匀取值,埃尔法=10的r次方。

     

     另一个例子是对随机加权指数贝塔的取值,如果贝塔想在0.9-0.999之间取值,好的方法是先对1-贝塔取值,再用1-it。因为1-贝塔=0.1-0.001,所以就可以用之前的方法了。 右下角的三个式子就是取值方法。

  • 相关阅读:
    Test Double
    测试金字塔
    windows 10安装 db2
    漫谈系列
    SOA 和 微服务的几篇文章
    JavaScript JQuery
    【原创】单测代码生成工具Evosuite试用
    [转载]Linux进程调度原理
    [转载]Java 应用性能调优实践
    [转载]Java进程物理内存远大于Xmx的问题分析
  • 原文地址:https://www.cnblogs.com/lau1997/p/12361278.html
Copyright © 2011-2022 走看看