zoukankan      html  css  js  c++  java
  • 机器学习基石笔记:15 Validation

    原文地址:https://www.jianshu.com/p/d12c98c1525d

    一、模型选择

    图1.1 模型选择问题

    如何选择?

    • 视觉上 NO
      不是所有资料都能可视化;人脑模型复杂度也得算上。
    • 通过(E_{in}) NO
      容易过拟合,泛化能力差。
    • 通过(E_{test}) NO
      能保证好的泛化,不过往往没法提前获得测试资料。

    图1.2 泛化的保证

    折中:将样本资料分为两部分。一部分用作训练,一部分用作验证。

    图1.3 样本内误差和测试误差的比较

    二、验证

    图2.1 验证集

    基于验证集的模型选择:

    • 利用所有训练数据训练所有模型,得出各个模型下的最优假设;
    • 计算验证数据在各个模型最优假设下的代价值,选择最小代价值的模型;
    • 利用全部样本数据训练选出来的模型,得到最优假设。

    图2.2 基于验证集的模型选择1
    图2.3 基于验证集的模型选择2

    如何选择(K)?
    通常,(K)取样本总数的1/5。

    图2.4 基于验证集的模型选择3

    注意:validation不见得比较慢(训练数据变少了)。

    三、留一交叉验证

    图3.1 留一交叉验证1
    图3.2 留一交叉验证2
    图3.3 留一交叉验证3

    四、V折交叉验证

    留一交叉验证速度慢以及存在不稳定性,实际中通常不怎么用。
    将留一中的一个变为一份 ------> V折交叉验证。
    V常取5或10。

    图4.1 V折交叉验证1
    图4.2 V折交叉验证2
    图4.3 验证相关方法小结

  • 相关阅读:
    2021年2月4号
    2021年2月3号
    2021年2月2号
    2021年2月1日
    2021年1月31日
    2021年1月30日
    20171205xlVBA往返航班组合
    选择文件
    从VBA过渡到Python
    20171114xlVba选定单行记录并打印
  • 原文地址:https://www.cnblogs.com/cherrychenlee/p/10800303.html
Copyright © 2011-2022 走看看