机器学习模型 bias 和 variance 的直观判断

zoukankan html css js c++ java

机器学习模型 bias 和 variance 的直观判断

　　假设我们已经训练得到一个模型，那么我们怎么直观判断这个模型的 bias 和 variance？

　　直观方法：

　　　　如果模型的训练错误比较大，并且验证错误和训练错误差不多一样，都比较大，我们就认为这个模型是高bias 的，或者说它是 underfit 。

　　　　如果模型的训练错误比较小，但是验证错误比较大远大于训练错误，我们就认为这个模型是高variance，或者说它是 overfit。

　　直观解释：

　　　　如果一个模型是高 bias 的（underfitting），那么可以认为这个模型不仅没有很好的表示测试数据集上数据内含的结构，而且它也没有很好表示整体数据集上数据内含的结构；

　　　　如果一个模型是高 variance的（overfitting），那么通常认为这个模型很好的表示了训练集上数据内含的结构，

　　　　　　但是，我们要明白：

　　　　　　　　首先，从统计学上的观点看，这个训练数据集是真实整体数据集的一个样本数据集，所以，数据集不一定完全内含整体数据集的结构；

　　　　　　　　其次，这些数据都是测量来的，往往都存在误差，不管是测量上的，还是系统本身就有的，这些误差本身也会有某些结构；

　　　　　　如果训练的模型也内含了这些误差的结构，那么...

　　　　总之，不管上面哪种情况或者还是同时出现，即使训练得到的模型很好的拟合了训练集，训练错误很小；但，当推广或者泛化到新的数据集上时，这个模型的预测结果就会下降很多。

查看全文

相关阅读:
常用网络操作命令
 C语言中的位域[转]
状态机——一种强大的思想利器
 9030PCI CAN驱动开发点滴
 驱动开发中应该注意的事项
 java 从网络Url中下载文件
 windows pyspider 爬虫安装
 java list去重
 Java 文件分块及合并
 工程部署到linux

原文地址：https://www.cnblogs.com/simplelovecs/p/5133774.html

最新文章
virtualenv 使用
 DAY7-Flask项目
 随笔。。。
DAY6-Flask项目
 DAY5-Flask项目
 DAY4-Flask项目
 DAY3-Flask项目
 DAY2-Flask项目
 Python中的关键字
 变量及数据类型

机器学习模型 bias 和 variance 的直观判断

直观方法：

直观解释：

　　直观方法：

　　直观解释：