zoukankan      html  css  js  c++  java
  • 李宏毅Gradient Descent(lecturte3)课堂笔记

    其中,learning rate:η    :梯度,它实际是个vector。Gradient可以考虑成Loss等高线的法线方向

    learning rate要小心调节

    红线的learning rate就是刚刚好,蓝线太慢了,绿线黄线太快了。可以通过画右边图来观察。

    越学习越慢,不同的参数最好提供不同的learning rate。

    怎么选择learning rate呢?可以采用Adagrad

    实际举例:

    σt类似累计梯度的平方?

    这里是只有一个参数的情况。

    最好的方法是考虑二次微分,Adagrad就考虑了二次微分。

    Stochastic Gradient Descent随机梯度下降  

    先只考虑一个xn ,只算它的Loss,Gradient

    Feature Scaling特征缩放:

    x1本身比较小而x2比较大时,x2原本就会对loss产生比较大的影响。

    可以采用scaling方法:

  • 相关阅读:
    ASP.NET DropDownList 控件绑定数据
    Linux图形界面与命令行界面切换
    Linux性能分析
    UTF虚拟对象
    UFT场景恢复
    UFT参数化
    UFT检查点
    UFT三种录制方式
    UFT基本操作
    UFT安装目录简单介绍
  • 原文地址:https://www.cnblogs.com/lunotebook/p/11392801.html
Copyright © 2011-2022 走看看