1.用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同?
(1)逻辑回归是一种用于解决二分类(0 or 1)问题的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。
(2)逻辑回归与线性回归都是一种广义线性模型。逻辑回归假设因变量 y 服从伯努利分布,而线性回归假设因变量 y 服从高斯分布。
(3)应用上的不同。逻辑回归:常用于数据挖掘,疾病自动诊断,经济预测等领域;线性回归:常运用于数学、金融、趋势线、经济学等领域。
线性回归 | 逻辑回归 |
均方误差 | 对数拟然损失 |
正规方程 梯度下降(大批量数据) |
梯度下降 |
2.自述一下什么是过拟合和欠拟合?
欠拟合
因为对于给定数据集,欠拟合的成因大多是模型不够复杂、拟合函数的能力不够。
为此可以增加迭代次数继续训练、尝试换用其他算法、增加模型的参数数量和复杂程度,或者采用Boosting等集成方法。
过拟合
过拟合成因是给定的数据集相对过于简单,使得模型在拟合函数时过分地考虑了噪声等不必要的数据间的关联。或者说相对于给定数据集,模型过于复杂、拟合能力过强。
3.思考一下逻辑回归的应用场景有哪些?
(1)用于分类:适合做很多分类算法的基础组件。
(2)用于预测:预测事件发生的概率(输出)。
(3)用于分析:单一因素对某一个事件发生的影响因素分析(特征参数值)。
比如垃圾邮件判断(是/否垃圾邮件),是否患某种疾病(是/否), 广告是否点击等场景。