logistic学习笔记

zoukankan html css js c++ java

logistic学习笔记

1、 logistic回归与一般线性回归模型的区别：

（1）     线性回归的结果变量与因变量或者反应变量与自变量之间的关系假设是线性的，而logistic回归中两者之间的关系是非线性的；

（2）     前提假设不同，在线性回归中，通常假设，对于自变量x的某个值，因变量Y的观测值服从正态分布，但在logistic回归中，因变量Y 服从二项分布或者多项分布；

（3）     logistic中不存在线性回归中的残差项。

2、logistic回归的应用条件：

      首要的条件应该是需要看一下自变量与因变量之间是什么样的一种关系。

      多重线性回归中，要求自变量与因变量符合线性关系。

      而logistic回归则不同，它要求的是自变量与logit（y）符合线性关系，所谓logit实际上就是ln（P/1-P）。也就是说，自变量应与ln（P/1-P）呈线性关系（而自变量与因变量成S曲线关系：自然界中有很多事物的发展符合S曲线的规律，尤其是在生物、遗传方面，因此logistic回归经常用在生物信息学的数据挖掘中）。当然，这种情形主要针对多分类变量和连续变量。对于二分类变量就无所谓了，因为两点之间永远可以连成一条线；

     最后强调一下，如果你对自变量x与y的关系不清楚，在样本含量允许的条件下，最好转换为虚拟变量的形式，这样不至于出现太大的误差。

     如果你不清楚应该如何探索他们的关系，也可以采用虚拟变量的形式，比如x=1，2，3，4，如果转换的虚拟变量x2，x3，x4他们的OR值呈直线关系，那x基本上可以直接以1，2，3，4的形式直接与y进行分析。而如果，x2，x3，x4的危险度分别为3.1，2.9，3.4。并不呈直线关系，所以还是考虑以虚拟变量形式进行分析最好。

3、logistic回归的用途：

     logistic回归主要在流行病学中应用较多，比较常用的情形是探索某疾病的危险因素，根据危险因素预测某疾病发生的概率，等等。

     logistic回归的主要用途：一是寻找危险因素，正如上面所说的寻找某一疾病的危险因素等。二是预测，如果已经建立了logistic回归模型，则可以根据模型，预测在不同的自变量情况下，发生某病或某种情况的概率有多大。三是判别，实际上跟预测有些类似，也是根据logistic模型，判断某人属于某病或属于某种情况的概率有多大，也就是看一下这个人有多大的可能性是属于某病。

3、模型选择：

      模型选择在实际应用过程中非常有用，一般把与模型有关的数据分为3部分，训练数据，验证数据和测试数据，如下图所示：

Training set

Validation set

Test set

      其中训练数据和验证数据都是已有的样本数据，即已观察到了的数据。测试数据是未来实际应用中产生的数据，是事先不知道的。

      模型选择问题就是说怎样验证一个模型是否好。模型的好坏最终是要看它在测试数据集上的表现。因此在未观测到测试数据时，我们只能用验证数据集来代替它进行测试。机器学习的初学者最容易犯的一个错误是：在测试集上进行参数调整。一定要记住，凡是有关参数调整的，只能在验证集上进行，测试集不能参与任何形式的训练、验证，只能用于最终模型效果的测试。

      在训练样本有限的情况下，为了提高数据的利用效率，一般采用的方法为交叉验证，比如说LOOCV，即留一法交叉验证，类似的还有k折交叉验证。交叉验证的主要目的是防止训练出来的模型过拟合。但是在当今由于数据都是海量的，交叉验证方法使用越来越少了，因为如果训练数据集非常大的话，一般不会产生过拟合现象。不过在生物医学信息的数据挖掘中，尤其是基因数据，样本的获得成本较高，特征的数目非常大，样本数相对特征数来说较小，还是会使用交叉验证、bootstrapping等方法来尽量提高样本数据的利用率，争取在样本数量较小的情况下，得到更好的分类、预测效果。

　　还有一些方法是不需要通过验证而直接来评价模型好坏的，比如是AIC，BIC，MDL，SRM等。

4、统计结果关注的参数：

      在商业实践中，对以上统计量最为关注的是C统计量，其次是似然卡方统计量，然后才是HL统计量，对AIC 和RSQUARE 极少关注，这一点和多元线性回归有很大的不同，根本原因是多元线性回归是一个预测模型，目标变量的值具有实际的数值意义；而logistic是一个分类模型，目标变量的值是一个分类标识，因此更关注观测值和预测值之间的相对一致性，而不是绝对一致性。

5、 logistic回归与SVM的区别与联系：

      两种方法都是常见的分类算法，分类作为数据挖掘领域中一项非常重要的任务，它的目的是学会一个分类函数或分类模型(或者叫做分类器)。

      从目标函数来看，区别在于逻辑回归采用的是logistical loss，svm采用的是hinge loss。这两个损失函数的目的都是增加对分类影响较大的数据点的权重，减少与分类关系较小的数据点的权重。SVM的处理方法是只考虑support vectors，也就是和分类最相关的少数点，去学习分类器。而逻辑回归通过非线性映射，大大减小了离分类平面较远的点的权重，相对提升了与分类最相关的数据点的权重。两者的根本目的都是一样的。此外，根据需要，两个方法都可以增加不同的正则化项，如l1,l2（相当于一范式、二范式）等等。所以在很多实验中，两种算法的结果是很接近的。
    但是逻辑回归相对来说模型更简单，好理解，实现起来，特别是大规模线性分类时比较方便。而SVM的理解和优化相对来说复杂一些。但是SVM的理论基础更加牢固，有一套结构化风险最小化的理论基础，虽然一般使用的人不太会去关注。还有很重要的一点，SVM转化为对偶问题后，分类只需要计算与少数几个支持向量的距离，这个在进行复杂核函数计算时优势很明显，能够大大简化模型和计算量。

     而SVM相对于logistic最大的特点在于其假设函数h_θ(x)的非线性映射（使用多项式核、高斯核、RBF核等），使得SVM可以实现非线性分类；而logistic分类器虽然把自变量进行了logit变换，使得自变量与目标变量间不必满足线性关系，只要满足logit关系，本质上还是一个线性分类器。

6、先验概率与后验概率

      先验概率 ( Prior probability)先验概率是在缺乏某个事实的情况下描述一个变量; 而后验概率是在考虑了一个事实之后的条件概率.

7、医学疾病研究中选择logistic回归模型的合理性：

（1）     模型判断你没病但是你有病的概率很小；Logistic的优势在于logistic很好的控制住了FPR，所以在两类错误代价不一致时，如何选取还得仔细分析。

8、ROC曲线的来源及定义

     现代分类器很多都不是简单地给出一个0或1 的分类判定，而是给出一个分类的倾向程度，比如贝叶斯分类器输出的分类概率。对于这些分类器，当你取不同阈值，就可以得到不同的分类结果及分类器评价指标。我们还可以看到，随着阈值的减小（更多的客户就会被归为正例），recall和1-Specificity也相应增加（也即Specificity相应减少）。那么我们要动态的评价，一个合理的办法就是把基于不同的阈值而产生的一系列recall和Specificity描绘到直角坐标上，就能更清楚地看到它们的对应关系。由于recally和Specificity的方向刚好相反，我们把sensitivity和1-Specificity描绘到同一个图中，它们的对应关系，就得到了传说中的ROC曲线，全称是receiver operating characteristic curve，中文叫“接受者操作特性曲线”。

9、规则化项L1与L2的区别：

   简单地说：L1会趋向于产生少量的特征，而其他的特征权重都是0，因为L1能产生稀疏性；而L2会选择更多的特征，这些特征都会接近于0.

             L1在特征选择时非常有用；而L2就只是一种规则化而已，用于防止过拟合，提升模型的泛化能力，此外，从算法的底层优化计算角度来说，L2更易处理某些条件下矩阵求逆的问题。

查看全文

相关阅读:
洛谷P1182 数列分段`Section II`
洛谷P3902 递增
 洛谷P1678-烦恼的高考志愿
 POJ 3263-Tallest Cow
洛谷P2280 [HNOI2003]激光炸弹
 POJ 1958
Vijos 1197
VirtualBox 导入.vdi文件时报“uuid is exists”错误
 解压常用
 cut 命令

原文地址：https://www.cnblogs.com/zichun-zeng/p/3824745.html