机器学习模型的选择

zoukankan html css js c++ java

机器学习模型的选择

　　首先明白一个事实，那就是如果我们在某个训练集上训练拟合得到一个模型，那么显然，这个模型在这个训练集上的训练错误很有可能会比实际上的泛化错误（generalization error）会低（模型overfitting）。

　　问题来了：

　　　　假如我们把数据集分成训练集和测试集。然后，在训练集上训练得到几个模型，我们想从中选择一个我们认为最好的模型。我们该如何做选择呢？

　　一种方法是，直接从中选择训练错误最小的那个模型。

　　　　但是，我们知道，训练错误最小，很可能是这个模型过度拟合；因此，这个模型的实际泛化错误（generalization error）很大。换句话说，如果把这些模型放在测试集上进行测试，训练错误最小的那个模型很可能测试错误很大。所以，这种方法不可行。

　　另一种方法是，把这些模型放在测试集上进行测试，然后选择测试错误最小的那个。

　　　　嗯，是不错，但是如果我们想知道这个模型的泛化错误（generalization error）是多少该怎么办？直接使用测试错误吗？显然这样做不好，前面提到，这个错误值往往很可能比实际的泛化错误小。

　　　　那该怎么办呢？

　　具体做法是：

　　　　首先，把数据集分成三部分：训练集、验证集（交叉验证集 cross validation set）、测试集；

　　　　其次，在训练集上训练得到几个模型；

　　　　接着，把这些模型放在验证集上进行验证，选择验证错误最小的那个模型；

　　　　最后，把这个模型放在测试集上进行测试，计算得到它的测试错误，这个测试错误就可以当成它的泛化错误（generalization error）。

　　

查看全文

相关阅读:
虚拟机VirtualBox 共享挂载问题：mount: /mnt/xxx: wrong fs type, bad option, bad superblock on xxx
git 设置和取消代理
 (转载)数据库连接池到底应该设多大？这篇文章可能会颠覆你的认知
 关于golang中IO相关的Buffer类浅析
 (转)golang获取当前时间、时间戳和时间字符串及它们之间的相互转换
 FFmpeg常用命令
 go cmd nohup 的坑
 Nginx配置详解(转)
记录一次go性能调试的过程
 github徽标引入

原文地址：https://www.cnblogs.com/simplelovecs/p/5133562.html

机器学习模型的选择

问题来了：

一种方法是，直接从中选择 训练错误最小的那个模型。

另一种方法是，把 这些模型 放在测试集上进行测试，然后选择 测试错误最小的那个。

具体做法是：

　　问题来了：

　　一种方法是，直接从中选择训练错误最小的那个模型。

　　另一种方法是，把这些模型放在测试集上进行测试，然后选择测试错误最小的那个。

　　具体做法是：