七、 正则化
7.1 过拟合问题
过拟合:overfitting,模型有很多特征,使得假设模型可能会千方百计的去拟合训练集,努力地扭曲从而符合每个训练样本,虽然能让曲线的代价函数值很低,甚至为0,但这种情况会导致无法泛化到新的样本中,无法预测新样本的价格;
泛化:一个假设模型应用到新样本的能力,新样本数据就是训练集之外的数据;
Q:如何解决过拟合的问题?
- 1、减少特征变量:通过人工判断决定删除部分相干性低的变量,或者使用一些算法来剔除某些信息量少的特征;这个方法虽然能有效降低过拟合的发生,但可能会因为部分变量的剔除使得曲线拟合程度降低,或者我们并不想舍弃那部分信息;
- 2、正则化:能保留所有变量,通过减少量级来防治过拟合的发生,当特征很多的时候,每个特征都会对预测得y值或多或少的产生一点影响,我们不想舍掉它们,那么正则化就是最理想的方法;
7.2 代价函数
正则化的思想:在θ3和θ4前面加入惩罚项,即通过增大代价函数中θ3和θ4前面系数的大小来扩大两者对代价函数的影响,由于我们要使代价函数取最小,那么θ3和θ4必然取最小值(接近于0),那么,高次项的θTX就转化成了低次项的,从而简化模型,成功避免过拟合问题;
当特征很多时,我们无法确定哪个特征的相关性高,哪个相关性低,哪个是高次项,哪个是低次项,所以我们只能先将常数项之外所有的θ(θ1到θn)都作为正则项;
当然,如果我们λ设置得过大,那么会导致θ1到θn都被忽略,从而hθ(x)=θ0,它并没有贴合数据,如下图所示:
所以,正则化参数λ需要选择一个合适的值才能达到预期效果;
7.3 线性回归的正则化
Q:仅仅是θj变成了之前的0.99倍,这能够达到正则化的效果吗?
当样本个数小于特征个数时,该矩阵为奇异矩阵,无法计算逆矩阵,无法通过正规方程得到结果;不过,当λ>0时,整个矩阵的正则化就能解决以上问题,将其变成可逆矩阵;
7.4 logistic回归的正则化
梯度下降时防止过拟合,在后面加了和线性回归正则化一样的部分λ/m*θj;
进一步优化: