机器学习第六次作业

1.用自己的话描述一下，什么是逻辑回归，与线性回归对比，有什么不同？

逻辑回归的思想是将样本特征和样本发生的概率联系起来，概率是一个0到1之间的数。逻辑回归解决的是分类问题，而不是回归问题，虽然它名字里有回归俩字。这里的可能性，不是数学上的概率，这里的可能性是特征值得加权求和，不是直接相乘。离散选择法模型之一，属于多重变量分析范畴，是社会学、生物统计学、临床、数量心理学、计量经济学、市场营销等统计实证分析的常用方法。逻辑回归是机器学习中的一种分类模型，在线性回归的基础上，套用了一个逻辑函数，用于估计某种事物的可能性。

区别：线性回归是解决回归问题。结果是连续型，主要解决房租预测等问题。逻辑回归是分类问题，不是回归问题，结果是离散型，主要解决二分类问题，线性回归是计算出具体的值，是解决回归问题；逻辑回归是给出是和否，解决的是分类问题。逻辑回归引入了sigmoid函数，把y值从线性回归的(−∞,+∞)限制到了（0,1）的范围。逻辑回归通过阈值判断的方式，引入了非线性因素，可以处理分类问题。

2.自述一下什么是过拟合和欠拟合？

过拟合其实就是所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越，导致在验证数据集以及测试数据集中表现不佳。打个比喻就是当我需要建立好一个模型之后，比如是识别一只狗狗的模型，我需要对这个模型进行训练。恰好，我训练样本中的所有训练图片都是二哈，那么经过多次迭代训练之后，模型训练好了，并且在训练集中表现得很好。基本上二哈身上的所有特点都涵括进去，那么问题来了！假如我的测试样本是一只金毛呢？将一只金毛的测试样本放进这个识别狗狗的模型中，很有可能模型最后输出的结果就是金毛不是一条狗（因为这个模型基本上是按照二哈的特征去打造的）。所以这样就造成了模型过拟合，虽然在训练集上表现得很好，但是在测试集中表现得恰好相反，在性能的角度上讲就是协方差过大（variance is large），同样在测试集上的损失函数（cost function）会表现得很大。

欠拟合，相对过拟合欠拟合还是比较容易理解。还是拿刚才的模型来说，可能二哈被提取的特征比较少，导致训练出来的模型不能很好地匹配，表现得很差，甚至二哈都无法识别。

3.思考一下逻辑回归的应用场景有哪些？

（1）犯罪分子出现的地方

（2）个人信用值

（3）广告点击率

（4）是否为垃圾邮件

（5）是否患病

（6）金融诈骗

（7）虚假账号

机器学习第六次作业

6.逻辑归回