参考:https://www.cnblogs.com/jfdwd/p/11046747.html
正则化选择参数 :penalty
——> ;l1 / l2 默认是L2的正则化;
出现过拟合,考虑使用 L1;
如果特征较多希望略去不重要特征,就有L1。
参数优化方式 :solver
——> 当penalty为l1的时候,参数只能是:liblinear(坐标轴下降法),lbfgs和cg都是关于目标函数的二 阶泰勒展开,当penalty为l2的时候,参数可以是:lbfgs(拟牛顿法)、newton-cg(牛顿法变种),seg(minibatch) 、而liblinear通吃L1正则化和L2正则化
维度<10000时,lbfgs法比较好, 维度>10000时, cg法比较好,显卡计算的时候,lbfgs和cg都比seg快
1. liblinear:使用了坐标轴下降法来迭代优化损失函数。
2. lbfgs:拟牛顿法的一种,利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。
3. newton-cg:也是牛顿法家族的一种,利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。
4. sag:即随机平均梯度下降,是梯度下降法的变种,和普通梯度下降法的区别是每次迭代仅仅用一部分的样本来计 算梯度,适合于样本数据多的时候,SAG是一种线性收敛算法,这个速度远比SGD快。关于SAG的理解.