问题描述
寻找一系列合适的参数 W,使得其对应的多项式与样值点最接近。
对于如何刻画“最接近”,可以定义目标函数最小化:
如下图:
由下图可见,当多项式的阶数(M)增加时,红色多项式曲线与样本的误差越小。当M为9时,多项式曲线通过每一个样本点。
Over Fitting 问题
但是多项式阶数为9时,其推广能力并不好。在测试集上,其误差反而增加,这就是过拟合(over fitting)问题。
为解决Over fitting问题,将目标函数增加一项,如下图。这一过程称为 regularization。
通过正则化,一部分解决了过拟合问题。
下图仍然是 M=9,作用在相同数据集上的情况。可见引入的正则项控制了 Over fitting 的问题。
当然如果样本量远大于多项式阶数,则一般不存在过拟合问题。