zoukankan      html  css  js  c++  java
  • 机器学习(3)

    一、模型评估与选择

    2.2.1留出法

    1、直接将数据集划分为两个互斥的集合,即D=sUt,s∩t=空集

    2、在s上训练出模型,用t来评估其测试误差

    3、s/t的划分尽可能保持数据分布的一致性,至少要保持样本的类别比例相似

    4、若s,t中的样本比例差别很大,则误差估计将由训练/测试数据分布的差异而产生偏差

    5、在给定训练/测试集的样本比例之后,仍存在多种划分方式对初始数据集D进行分割。这些不同的划分将导致不同的训练/测试集

    6、在使用留出法时,一般要采用若干次随机划分,重复进行试验后取平均值作为留出法的评估结果

    2.2.2交叉验证法

    1、先将数据集D划分为k个大小相似的互斥子集

    即每个子集Di都尽可能保持数据分布的一致性,即从D中通过分层采样得到,然后,每次用k-1个子集的并集作为训练集,

    余下的自己作为测试集(总过划分为k个子集)这样便可获得k组训练/测试集,从而进行k次训练和测试,最终返回k个测试结果的均值

    2、k最常使用的取值为10

    3、将数据集D划分为k个子集存在多种划分方式。k折交叉验证通常要随机使用不同的划分重复p次,最终取这p次k折交叉验证的均值作为结果

    2.2.3自助法

    1、在前两者中,由于保留了一部分样本用于测试,因此是实际评估的模型所使用的训练集比D小。这会导致些许误差

    2、“自助法”直接以自助采样法为基础,给定包含m个样本的数据集D,我们对它进行采样产生数据集d,每次随机从D中挑选一个样本,将其拷贝放入d,

    使得该样本在下次采样时仍可能被采到,将这个过程重复执行n次,就得到了包含n个样本的数据集d,这就是自助采样的结果

  • 相关阅读:
    HDU 3277 Marriage Match III(最大流+二分+并查集)
    HDU 3032 Nim or not Nim?(博弈,打表找规律)
    2013南京邀请赛小结——ACM两年总结
    HDU 2829 Lawrence (斜率DP)
    HDU 3530 Subsequence(单调队列)
    HDU 1525 Euclid's Game(博弈)
    C Count The Carries(2013南京邀请赛C题)
    A Play the Dice (2013南京邀请赛A题)
    POJ 3017 Cut the Sequence(单调队列+set)
    Jquery TreeView
  • 原文地址:https://www.cnblogs.com/funny-and-point/p/13547004.html
Copyright © 2011-2022 走看看