如果使用交叉验证，是否还需要单独分出测试集？ - 走看看

zoukankan html css js c++ java

如果使用交叉验证，是否还需要单独分出测试集？

比方说，用100k条数据，有两个思路

1. 用这100k条数据做k-fold交叉验证，来调模型参数

2. 先随机划分出70k条数据做训练集用来根据交叉验证调参数，调好之后再用剩下的30k条数据做测试集

【答】

虽然这两个都没有错对之分，但是在数据量允许的情况下，更建议第2个思路。

对于思路1，如果用交叉验证的预测误差作为模型的预测误差，这是有偏差的。因为交叉验证的误差通常是小于真实测试误差的。

思路2是推荐的。因为测试集一定要和模型本身独立、无关，测试集不能参与模型的训练。

引申开来，还有第二层意思，你利用70k的数据训练完模型后，不能根据在30k测试集上的表现再回去重新调整参数，因为一旦你这样做了，你就很可能会过拟合，你的交叉验证也就没有意义了。

查看全文

相关阅读:
mysql索引
 数据库修复
 数据库取值三级分类后台遍历
 创建数据库！
mysql按条件导出sql
nodejs 简单安装环境
 C++ 性能剖析（一）
C++ 性能剖析（二）：值语义 (value semantics)
JavaScript Nested Function 的时空和身份属性
 C++ Reference 的“三位一体”诠释

原文地址：https://www.cnblogs.com/sddai/p/8378167.html

Copyright © 2011-2022 走看看