1.用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同?
答:(1)定义:逻辑回归(Logistic Regression)是一种用于解决二分类(0 or 1)问题的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。 注意,这里用的是“可能性”,而非数学上的“概率”,logisitc回归的结果并非数学定义中的概率值,不可以直接当做概率值来用。该结果往往用于和其他特征值加权求和,而非直接相乘。
(2)与线性回归对比:1、线性回归使用的损失函数为均方误差,逻辑回归使用的是对数似然损失。
2、算法优化:线性回归为正规方程(处理量少)、梯度下降(处理量大);逻辑回归只是梯度下降。
3、线性回归要求变量服从正态分布,逻辑回归对变量分布没有要求。
4、线性回归要求因变量是连续性数值变量,而逻辑回归要求因变量是分类型变量。
5、逻辑回归是分析因变量取某个值的概率与自变量的关系,而线性回归是直接分析因变量与自变量的关系。
2.自述一下什么是过拟合和欠拟合?
答: 过拟合:给定的数据集相对过于简单,使得模型在拟合函数时过分地考虑了噪声等不必要的数据间的关联。或者说相对于给定数据集,模型过于复杂、拟合能力过强。
欠拟合:给定数据集,欠拟合的成因大多是模型不够复杂、拟合函数的能力不够。为此可以增加迭代次数继续训练、尝试换用其他算法、增加模型的参数数量和复杂程度,或者采用Boosting等集成方法。
3.思考一下逻辑回归的应用场景有哪些?
答:常用于数据挖掘,疾病自动诊断,经济预测等领域场景。