- 2.1经验误差与过拟合
- 错误率(error rate)
- 分类错误的样本数目占样本总数的比例
- 分类错误的样本数目占样本总数的比例
- 精度(accuracy)
- 分类正确的样本数目占样本总数的比例;精度=1-错误率
- 分类正确的样本数目占样本总数的比例;精度=1-错误率
- 误差(error)
- 学习器实际预测输出与样本的真实输出之间的差异
- 学习器实际预测输出与样本的真实输出之间的差异
- 训练误差(training error)/经验误差(empirical error)
- 学习器在训练集上的误差
- 因为我们不知道新样本是什么样,所以只有尽可能缩小经验误差
- 学习器在训练集上的误差
- 泛化误差(generalization error)
- 学习器在新样本上的误差
- 显然,大家都想得到泛化误差小的学习器
- 学习器在新样本上的误差
- 过拟合(overfitting)
- 当学习器把训练样本学习的“太好了”的时候,会导致泛化性下降,也就是面对新样本会导致效果不佳
- 训练“太好”,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降
- 学习能力过于强大。不可避免,只能缓解。
- 当学习器把训练样本学习的“太好了”的时候,会导致泛化性下降,也就是面对新样本会导致效果不佳
- 欠拟合(underfitting)
- 与过拟合相对
- 是指对样本的一般性质尚未学好
- 学习能力不行,加大学习。可以很好解决
- 与过拟合相对
- 模型选择
- 现实中,往往有多种算法可供选择,甚至对于同一种算法不同参数配置时也会产生不同模型。如何选择,即是模型选择
- 理想解决办法是对候选模型的泛化误差进行评估,然后选择泛化误差最小的模型
- 现实中,往往有多种算法可供选择,甚至对于同一种算法不同参数配置时也会产生不同模型。如何选择,即是模型选择
- 错误率(error rate)
- 引言:无法直接获得泛化误差,而训练误差又由于过拟合现象的存在不适合作为标准那么我们如何进行模型评估与选择呢?
- 2.2评估方法
- 通过“测试集”来测试学习器对新样本的判别能力,然后以测试集上的“测试误差”作为“泛化误差”的近似
- 测试样本
- 从样本真实分布中独立同分布采样
- 与训练集尽可能互斥(未出现,未使用过的)
- 从样本真实分布中独立同分布采样
- 引言:我们只有一个包含m个样例的数据集D,既要训练又要测试。需要通过对D进行适当的处理,从中产生训练集S和测试集T。下面是常见方法
- 2.2.1留出法
- 直接将数据集D划分为两个互斥的集合,一个训练集S,一个测试集T。
- S上训练,T上评估。
- 注意
- 训练集和测试集的划分要尽可能保持数据分布一致性,避免因数据划分过程中引入额外的偏差而对最终结果造成影响
- 训练集和测试集的划分要尽可能保持数据分布一致性,避免因数据划分过程中引入额外的偏差而对最终结果造成影响
- 分层采样(stratified sampling)
- 保留类别比例的采样反式叫做分层采样
- 保留类别比例的采样反式叫做分层采样
- 缺点
- 在实际中,不同的划分都将会导致不同的训练/测试集,相应的,模型评估的结果也会有差别。所以单次“留出法”并不可靠,一般采用若干次随即划分,重复实验取平均。
- 在实际中,不同的划分都将会导致不同的训练/测试集,相应的,模型评估的结果也会有差别。所以单次“留出法”并不可靠,一般采用若干次随即划分,重复实验取平均。
- 常见解决办法
- 三分之二/五分之四的样本用于训练,剩余用于测试
- 三分之二/五分之四的样本用于训练,剩余用于测试
- 直接将数据集D划分为两个互斥的集合,一个训练集S,一个测试集T。
- 2.2.2交叉验证法
- 将数据集D分成K个大小相似的互斥子集,每个子集Di都尽可能保持数据分布的一致性,即从D中通过分层抽样取得
- K折交叉验证
- 每次用k-1个子集的并集作为训练集,余下一个子集作为测试集,最终返回K个测试结果,求其均值
- 每次用k-1个子集的并集作为训练集,余下一个子集作为测试集,最终返回K个测试结果,求其均值
- 将数据集D划分为K个子集,同样存在多种划分方式,为减少因样本划分不同而引入的差别,通常要随机使用不同的划分重复P次,最终结果是这P次的交叉验证的均值
- 常见:10次交叉验证
- 常见:10次交叉验证
- 特例:留一法
- 数据集D中包含m个样本,令k=m,则每次只留一个测试
- 留一法不受随机样本划分方式的影响
- 优点
- 使用的训练集最接近初始数据集,结果准确(也不全是)
- 使用的训练集最接近初始数据集,结果准确(也不全是)
- 缺点
- 数据量较大时,计算量太大
- 数据量较大时,计算量太大
- 数据集D中包含m个样本,令k=m,则每次只留一个测试
- 将数据集D分成K个大小相似的互斥子集,每个子集Di都尽可能保持数据分布的一致性,即从D中通过分层抽样取得
- 2.2.3自助法
- 2.2.4调参与最终模型
- 通过“测试集”来测试学习器对新样本的判别能力,然后以测试集上的“测试误差”作为“泛化误差”的近似