zoukankan      html  css  js  c++  java
  • 机器学习----训练集选择法

    1.留出法:

      将整个数据集D划分为两个互斥的集合,其中一个作为训练S,另一个作为测试集T。即,D=S∪T,S∩T=∅。在S上训练出模型,T作为测试,来评估模型效果。一般训练集为2/3或者4/5,否则容易导致S训练出来的模型更接近于D训练出来的模型。

    2.交叉验证法(K折交叉验证):

      将整个数据集分成K个大小相似的子集,即D=D1∪D2∪...∪Dk,Di∩Dj=∅。每次得到k-1个子集的并集作为训练集,余下的作为测试集,一般返回K个测试结果的均值。K值一般为10,称10折交叉验证

    3.自助法:

      给定m个样本的数据集D,我们对它进行采样产生数据集D',每次随机从D中挑选一个样本,将其拷贝入D',然后再将样本放回原始数据集D,是的该样本在下次采样时任然有可能被采到,这个过程重复m次后,我们就得到了含有m个样本的数据集D',这就是自助采样的结果。显然样本有重复采样,也有一次也没有被采到的。从未采到的结果是(1-1/m)^m,取极限得到

     

    使用自助法约有1/3的数据集没有被选中过,它们用于测试,这种方式叫“外包估计”。

    自助法在数据集小,难以划分训练集、测试集的时候有很大的效果,如果数据集足够大的时候,留出法和交叉验证是更好的选择。

  • 相关阅读:
    test
    TCP/IP状态转换图
    用Python操作Excel,实现班级成绩的统计
    树莓派介绍和安装树莓派系统遇到的坑,好痛苦啊
    Eclipse-jee-oxygen-3A版运行时出现Could not create the Java virtual machine?
    eclipse搭建简单的web服务,使用tomcat服务
    嵌入式【杂记--手机芯片与pc】
    tomcat启动不了?
    Selenium的使用
    使用PhantomJS
  • 原文地址:https://www.cnblogs.com/wbdream/p/10286203.html
Copyright © 2011-2022 走看看