zoukankan      html  css  js  c++  java
  • 如果使用交叉验证,是否还需要单独分出测试集?

    比方说,用100k条数据,有两个思路

    1. 用这100k条数据做k-fold交叉验证,来调模型参数

    2. 先随机划分出70k条数据做训练集用来根据交叉验证调参数,调好之后再用剩下的30k条数据做测试集

    【答】

    虽然这两个都没有错对之分,但是在数据量允许的情况下,更建议第2个思路。

    对于思路1,如果用交叉验证的预测误差作为模型的预测误差,这是有偏差的。因为交叉验证的误差通常是小于真实测试误差的。

    思路2是推荐的。因为测试集一定要和模型本身独立、无关,测试集不能参与模型的训练。

    引申开来,还有第二层意思,你利用70k的数据训练完模型后,不能根据在30k测试集上的表现再回去重新调整参数,因为一旦你这样做了,你就很可能会过拟合,你的交叉验证也就没有意义了。

  • 相关阅读:
    NUnit
    Fxcop
    msdeploy命令实现远程部署时保留指定文件
    virtualBox 创建新虚拟机
    sharepoint项目部署
    执行批处理文件
    NCover
    配置Web DashBoard
    ccnet+ncover+fxcop+web deploy+mstest
    命令行部署Reporting Services项目
  • 原文地址:https://www.cnblogs.com/sddai/p/8378167.html
Copyright © 2011-2022 走看看