201119西瓜书系列博客---2、模型评估与选择

zoukankan html css js c++ java

201119西瓜书系列博客---2、模型评估与选择

201119西瓜书系列博客---2、模型评估与选择

一、总结

一句话总结：

要善于凭借，这样万利无害

1、【2.2、学习器泛化误差评估方法】留出法？

【“留出法”（hold-out）直接将数据集D划分为两个互斥的集合】，其中一个集合作为训练集S，另一个作为测试集T，即D=S∪T，S∩T=Φ。在S上训练出模型后，用T来评估其测试误差，作为对泛化误差的估计.

2、【2.2、学习器泛化误差评估方法】交叉验证法(cross validation)？

【通过分层采样的方法将数据集 D划分为 k个大小相似的互斥子集】（注意分层采样之后的每个子集数据分布具有一致性）

【每次用k−1个子集的并集作为训练集，余下的那个子集作为测试集】。显然，这样就可以获得k组不同的训练集+测试集组合，从而进行k次训练和测试，最终返回的是这k个测试结果的均值。

同留出法，将数据集D划分为k组有多种不同的方式。为减少由于数据集划分的不同而引入的差别，【k折交叉验证通常要随机使用不同的划分重复p次】，最终的结果是这p次k折交叉验证结果的平均值（常见的为10次10折交叉验证）。

【交叉验证法】评估结果的稳定性和保真性在很大程度上取决于k的取值，通常把交叉验证法称为【“k折交叉验证”(k-fold cross validation)】。最常用的取值为10（还有5、20等），此时称为10折交叉验证。

3、【2.2、学习器泛化误差评估方法】交叉验证法的特例：留一法？

假定数据集D中包含【m个样本，若令k=m】，则得到了【交叉验证法的一个特例】：【留一法(Leave-One-Out，简称LOO)】。

显然，留一法的独特之处在于它【不受样本随机划分的影响】，【因为m个样本只能划分成m个数据子集】，即每一个样本就为一个子集（也即不需要像其它的交叉验证法那样需要p次随机划分数据集进行 p次的实验）。

由于留一法的训练集只比整个数据集少一个样本，故往往认为留一法的评估结果【比较准确（但不一定准确）】。

4、留一法交叉验证和普通交叉验证有什么区别？

k fold，就是把training data 折成k份（k<＝N）进行交叉验证，【k = N 即留一（LOOCV）】。

5、【2.2、学习器泛化误差评估方法】自助法（适合小数据集）？

我们希望评估的模型是用数据集D训练的，但是对于之前的留出法和交叉验证法，我们都保留了一部分作为测试集，【这样会引入样本规模不同导致的估计偏差】。而【留一法】虽然相对来说样本规模带来的影响较小（训练集只少一个样本），但是【计算复杂度太高】。

基于以上背景问题，我们想要一种【既能减少样本规模不同带来的影响，又能高效地进行实验估计的方法】。而【自助法(bootstrapping)】是一个比较好的解决方案。

自助法直接以自助采样法(bootstrap sampling)为基础，即【以有放回采样的方式采样出训练集 D】

6、【2.2、学习器泛化误差评估方法】机器学习涉及两类参数？

【算法的参数】，即【超参数】，数目常在10以内

【模型的参数】，数目可能很多

7、【2.3 性能度量（衡量模型泛化能力的标准）】？

2.3.1 错误率与精度

2.3.2 查准率、查全率与F1：查准率-查全率曲线（P-R曲线）

2.3.3 ROC与AUC

2.3.4 代价敏感错误率和代价曲线：

8、【2.4 比较检验】前面讲述的是【实验评估方法和性能度量】，但是单凭这两个就相对学习器进行性能评估还是不够的，原因在于？

我们要评估的是【学习器的泛化能力】，而通过实验评估方法得到的是测试集上的性能，两者的对比结果可能未必相同

【测试集上的性能与测试集的选择有很大的关系】，不同的测试集测试结果不一样

很多学习器本身具有【随机性】，运行多次结果也会不同

9、【2.4 比较检验】假设检验？

【假设检验中的假设是对学习器泛化错误率分布的某种判断或猜想】。这里，虽然我们只能得到测试集上的测试错误率而不是泛化错误率，

但是【相差很远的可能性较小，相差很近的可能性较大】（这种思路很值得学习），所以我们可以【用测试错误率估算推出泛化误差率的分布】

10、【2、模型评估与选择】本节重要结论？

【泛化误差可分解为偏差、方差与噪声之和】

【偏差-方差分解】说明，泛化性能是由【学习算法的能力、数据的充分性和学习任务本身的难度】所共同决定的

由泛化误差的分解可以看出，我们【只需使得偏差和方差都尽量小即可获得较优的泛化性能】。但是，一般来说，偏差和方差是有冲突的（不考虑噪声，偏差很大可以认为是欠拟合引起的；方差很大可以认为是过拟合引起的），即【偏差-方差窘境】。

二、201119西瓜书系列博客---2、模型评估与选择

转自或参考：西瓜书学习笔记——第二章：模型评估与选择
https://blog.csdn.net/shichensuyu/article/details/92809118

我的旨在学过的东西不再忘记（主要使用艾宾浩斯遗忘曲线算法及其它智能学习复习算法）的偏公益性质的完全免费的编程视频学习网站： fanrenyi.com；有各种前端、后端、算法、大数据、人工智能等课程。

版权申明：欢迎转载，但请注明出处
一些博文中有一些参考内容因时间久远找不到来源了没有注明，如果侵权请联系我删除。

博主25岁，前端后端算法大数据人工智能都有兴趣。

大家有啥都可以加博主联系方式（qq404006308，微信fan404006308）互相交流。工作、生活、心境，可以互相启迪。

聊技术，交朋友，修心境，qq404006308，微信fan404006308

26岁，真心找女朋友，非诚勿扰，微信fan404006308，qq404006308

人工智能群：939687837

作者相关推荐

感悟总结

其它重要感悟总结

感悟总结200813 最近心境200830 最近心境201019 201218-210205

查看全文

相关阅读:
gmap4rails
gmap4rails
devise的使用的中文教程
 对每个 IP 访问量实时监控。
下载文件总结
 安装Wamp后 Apache无法启动的解决方法
 CSS,fontfamily,好看常用的中文字体
 TP框架下载功能不想下天桥博客园
 用PHP，怎么获取PHP.ini中的文件上传最大的字节数。也就是默认的2M
这个技术wiki的内容很不错

原文地址：https://www.cnblogs.com/Renyi-Fan/p/14010243.html

201119西瓜书系列博客---2、模型评估与选择

201119西瓜书系列博客---2、模型评估与选择

一、总结

一句话总结：

要善于凭借，这样万利无害

1、【2.2、学习器泛化误差评估方法】 留出法？

【“留出法”（hold-out）直接将数据集D划分为两个互斥的集合】，其中一个集合作为训练集S，另一个作为测试集T，即D=S∪T，S∩T=Φ。在S上训练出模型后，用T来评估其测试误差，作为对泛化误差的估计.

2、【2.2、学习器泛化误差评估方法】 交叉验证法(cross validation)？

【通过分层采样的方法将数据集 D划分为 k个大小相似的互斥子集】（注意分层采样之后的每个子集数据分布具有一致性）

【每次用k−1个子集的并集作为训练集，余下的那个子集作为测试集】。显然，这样就可以获得k组不同的训练集+测试集组合，从而进行k次训练和测试，最终返回的是这k个测试结果的均值。

【交叉验证法】评估结果的稳定性和保真性在很大程度上取决于k的取值，通常把交叉验证法称为【“k折交叉验证”(k-fold cross validation)】。最常用的取值为10（还有5、20等），此时称为10折交叉验证。

3、【2.2、学习器泛化误差评估方法】 交叉验证法的特例：留一法？

假定数据集D中包含【m个样本，若令k=m】，则得到了【交叉验证法的一个特例】：【留一法(Leave-One-Out，简称LOO)】。

显然，留一法的独特之处在于它【不受样本随机划分的影响】，【因为m个样本只能划分成m个数据子集】，即每一个样本就为一个子集（也即不需要像其它的交叉验证法那样需要p次随机划分数据集进行 p次的实验）。

由于留一法的训练集只比整个数据集少一个样本，故往往认为留一法的评估结果【比较准确（但不一定准确）】。

4、留一法交叉验证和普通交叉验证有什么区别？

k fold，就是把training data 折成k份（k<＝N）进行交叉验证，【k = N 即留一（LOOCV）】。

5、【2.2、学习器泛化误差评估方法】 自助法（适合小数据集）？

基于以上背景问题，我们想要一种【既能减少样本规模不同带来的影响，又能高效地进行实验估计的方法】。而【自助法(bootstrapping)】是一个比较好的解决方案。

自助法直接以自助采样法(bootstrap sampling)为基础，即【以有放回采样的方式采样出训练集 D】

6、【2.2、学习器泛化误差评估方法】 机器学习涉及两类参数？

【算法的参数】，即【超参数】，数目常在10以内

【模型的参数】，数目可能很多

7、【2.3 性能度量（衡量模型泛化能力的标准）】 ？

2.3.1 错误率与精度

2.3.2 查准率、查全率与F1：查准率-查全率曲线（P-R曲线）

2.3.3 ROC与AUC

2.3.4 代价敏感错误率和代价曲线：

8、【2.4 比较检验】 前面讲述的是【实验评估方法和性能度量】，但是单凭这两个就相对学习器进行性能评估还是不够的，原因在于？

我们要评估的是【学习器的泛化能力】，而通过实验评估方法得到的是测试集上的性能，两者的对比结果可能未必相同

【测试集上的性能与测试集的选择有很大的关系】，不同的测试集测试结果不一样

很多学习器本身具有【随机性】，运行多次结果也会不同

9、【2.4 比较检验】 假设检验？

【假设检验中的假设是对学习器泛化错误率分布的某种判断或猜想】。这里，虽然我们只能得到测试集上的测试错误率而不是泛化错误率，

但是【相差很远的可能性较小，相差很近的可能性较大】（这种思路很值得学习），所以我们可以【用测试错误率估算推出泛化误差率的分布】

10、【2、模型评估与选择】 本节重要结论？

【泛化误差可分解为偏差、方差与噪声之和】

【偏差-方差分解】说明，泛化性能是由【学习算法的能力、数据的充分性和学习任务本身的难度】所共同决定的

二、201119西瓜书系列博客---2、模型评估与选择

作者相关推荐

1、【2.2、学习器泛化误差评估方法】留出法？

2、【2.2、学习器泛化误差评估方法】交叉验证法(cross validation)？

3、【2.2、学习器泛化误差评估方法】交叉验证法的特例：留一法？

5、【2.2、学习器泛化误差评估方法】自助法（适合小数据集）？

6、【2.2、学习器泛化误差评估方法】机器学习涉及两类参数？

7、【2.3 性能度量（衡量模型泛化能力的标准）】？

8、【2.4 比较检验】前面讲述的是【实验评估方法和性能度量】，但是单凭这两个就相对学习器进行性能评估还是不够的，原因在于？

9、【2.4 比较检验】假设检验？

10、【2、模型评估与选择】本节重要结论？