1.数据欠拟合会出现高偏差问题,比如数据的趋势是二次函数,用一次函数取拟合会出现高的偏差。
2.数据过度的拟合会出现高方差问题,比如用10个数据特征去拟合9个数据会出现高的方差。
3.怎么处理高偏差和高方差问题:
高偏差:训练误差很大,训练误差与测试误差差距小,随着样本数据增多,训练误差增大。解决方法:
1.寻找更好的特征(具有代表性的)
2.用更多的特征(增大输入向量的维度)
高方差:训练误差小,训练误差与测试误差差距大,可以通过增大样本集合来减小差距。随着样本数据增多,测试误差会减小。解决方案:
1.增大数据集合(使用更多的数据)
2.减少数据特征(减小数据维度)
图1
从图中可以看出当数据出现高方差即过拟合,随着训练集合增加,训练误差会随着增加,测试误差会随着减小,从图中可以看出,提供更多的数据可以减少测试误差与训练误差之间的差距。
图2
从图中2可以看出随着训练集合增加,测试误差会减少,但是减少到某个程度时,测试误差会持平,训练误差会增大。训练误差和测试误差会超过预期的误差值。
一般采取判断某函数是高方差还是高偏差,简单的判断是看训练误差与测试误差的差距,差距大说明是高方差的,差距小说明是高偏差的。