zoukankan      html  css  js  c++  java
  • 机器学习十讲——第七讲学习总结

    机器学习的优化目标

    最小化损失函数:

    模型——损失函数——表达式:

    图示:

      方法

    梯度下降:

    batch梯度下降:使用全部训练集样本,计算代价太高(n~10^6)

    mini-batch梯度下降:随机采样一个子集(m~100或1000),随后使用如下公式:

    mini-batch是无偏估计。更大的批量会减小梯度计算的方差。

    随机梯度下降SGD:

    使用mini-batch计算出结果后再根据梯度下降法的公式:去更新参数,下一步再随机采样子集,重复该操作。此方法称为随机梯度下降(SGD)。

    因此有说法:mini-batch是SGD的推广,通常所属SGD即是mini-batch。

    因为是训练一次样本更新一次参数,所以梯度下降时通常呈振荡的形式,但大方向上还是下降趋势:

     

    在SGD中学习率的设定是关键。

    理论上保证SGD收敛的充分条件: 。因此需要随着迭代次数的增加降低学习率。

    设定学习率的方法:

     

    梯度下降在实际应用中的问题

    病态条件:

    右图:假设周边都是悬崖,那么在进行梯度下降算法时会出现垂直下降的情况。

    局部最小与全局最小:

     

    右图所示,直观可以看出最小值在第三个凹处,然而在实际算法中根据设定起点不同,得到的“最小值”可能不是全局最小。

    鞍点:

    梯度为0,Hessian矩阵同时存在正值和负值;Heissan矩阵的所有特征值为正值的概率很低;对于高维情况,鞍点和局部最小点的数量多。如图所示:

    在使用二阶优化算法会有问题。

  • 相关阅读:
    第四单元博客总结——暨OO课程总结
    OO--第三单元规格化设计 博客作业
    关于博客园主——他死了
    编译错误总集
    密码是我QQ签名
    P1600 天天爱跑步
    天气之子——天空上是另一个世界
    可持久化01trie树——模板
    P1270 “访问”美术馆——不太一样的树形DP
    P1099 树网的核——模拟+树形结构
  • 原文地址:https://www.cnblogs.com/Aming-/p/14941408.html
Copyright © 2011-2022 走看看