机器学习西瓜书白话解读笔记---0201-0207、模型的评估与选择
一、总结
一句话总结:
【一起啃书】机器学习西瓜书白话解读:这个视频好短好短呀,【课程一定要短】这样课程非常非常好录,这样录出来的质量会非常好
这个up主喜欢说哒哒哒,这个讲课【很自在,好亲切】呀
1、留出法?
就是很简单的两个互斥集,也就是什么【三七分,二八分】
2、k折交叉验证?
k折交叉验证非常简单:就是将【数据集分k份,留一份做测试集,其它做训练集】,然后【结果做平均】
k折交叉验证的缺点:【数据量较大时,对算力要求较高】
3、自助法?
自助法也非常简单:就是【随机在数据集D中抽m次形成一个含m个数据的D'】
自助法【适用】:【数据及较小,难以划分的时候】
自助法【缺点】:【改变初始数据集分布,会引入估计偏差】
4、验证集作用?
验证集就是为了【调参】
【训练集训练,验证集看结果,调参,再看验证集结果参数调完,最后再测试集上看结果】
为了泛化能力,有训练集和测试集,为了【调参,有验证集】
5、均方误差?
回归任务最常用的性能度量是“均方误差”(mean squared error):$$E ( f ; D ) = frac { 1 } { m } sum _ { i = 1 } ^ { m } ( f ( x _ { i } ) - y _ { i } ) ^ { 2 }$$
更一般的,对于数据分布D和概率密度函数p(-),均方误差可描述为:$$E ( f ; D ) = int _ { x sim D } ( f ( x ) - y ) ^ { 2 } p ( x ) d x$$
因为是【均方误差,所以有平均,所以无论是上下两个公式,都有平均在里面】
二、模型的评估与选择
博客对应课程的视频位置: