机器学习实战笔记-Logistic回归

zoukankan html css js c++ java

机器学习实战笔记-Logistic回归
假设现在有一些数据点，我们用一条直线对这些点进行拟合（该线称为最佳拟合直线），这个拟合过程就称作回归。
利用Logistic回归进行分类的主要思想是：根据现有数据对分类边界线建立回归公式，以此进行分类。这里的“ 回归” 一词源于最佳拟合，表示要找到最佳拟合参数集
训练分类器时的做法就是寻找最佳拟合参数，使用的是最优化算法。

Logistic回归的一般过程
(1)收集数据：采用任意方法收集数据。
(2)准备数据：由于需要进行距离计算，因此要求数据类型为数值型。另外，结构化数据
格式则最佳。
(3)分析数据：采用任意方法对数据进行分析。
(4)训练算法：大部分时间将用于训练，训练的目的是为了找到最佳的分类回归系数。
(5)测试算法：一旦训练步驟完成，分类将会很快。
(6)使用算法：首先，我们需要输入一些数据，并将其转换成对应的结构化数值；
接着，基于训练好的回归系数就可以对这些数值进行简单的回归计算，判定它们属于
哪个类别.，在这之后，我们就可以夺输出的类别上做一些其他分析工作。

5.1基于Logistic回归和Sigmoid函数的分类
Logistic回归
优点：计算代价不高，易于理解和实现。
缺点：容易欠拟合，分类精度可能不高。 .
适用数据类型：数值型和标称型数据。

我们想要的函数应该是，能接受所有的输人然后预测出类别。例如，在两个类的情况下，上述函数输出0或 1。或许你之前接触过具有这种性质的函数，该函数称为海维塞德阶跃函数(Heaviside step function) ,或者直接称为单位阶跃函数。然而，海维塞德阶跃函数的问题在于：该函数在跳跃点上从0瞬间跳跃到1，这个瞬间跳跃过程有时很难处理。幸好，另一个函数也有类似的性质，且数学上更易处理，这就是Sigmoid函数。Sigmoid函数具体的计算公式如下：

图5-1给出了

5.2 基于最优化方法的最佳回归系数确定

5.2.1梯度上升法
梯度上升法基于的思想是：要找到某函数的最大值，最好的方法是沿着该函数的梯度方向探寻。如果梯度记为

图5 - 2 梯度上升算法到达每个点后都会重新估计移动的方向。从

梯度下降算法
公式:

梯度上升算法用来求函数的最大值，而梯度下降算法用来求函数的最小值。

重点内容
5.2.2 训练算法：使用梯度上升找到最佳参数
图5-3中有100个样本点，每个点包含两个数值型特征：

Logistic回归梯度上升优化算法,代码:
from numpy import * def loadDataSet(): dataMat = []; labelMat = [] fr = open('testSet.txt') for line in fr.readlines(): lineArr = line.strip().split() dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])]) labelMat.append(int(lineArr[2])) return dataMat,labelMat def sigmoid(inX): return 1.0/(1+exp(-inX)) def gradAscent(dataMatIn, classLabels): #将二维矩阵转换为矩阵，之后有矩阵运算 dataMatrix = mat(dataMatIn) #将labelMat转换为列向量 labelMat = mat(classLabels).transpose() m,n = shape(dataMatrix) alpha = 0.001 maxCycles = 500 weights = ones((n,1)) for k in range(maxCycles): #可以感性地将这两行代码理解为计算推测值与实际值的差距 h = sigmoid(dataMatrix*weights) error = (labelMat - h) #其中的dataMatrix.transpose()*error对应梯度 #在我转载的一篇博客中有详细的梯度公式推导 weights = weights + alpha * dataMatrix.transpose()*error return weights
5.2.3 分析数据：画出决策边界
画出数据集和Logistic回归最佳拟合直线的函数,代码如下:
def plotBestFit(weights): import matplotlib.pyplot as plt dataMat,labelMat = loadDataSet() dataArr = array(dataMat) n = shape(dataArr)[0] #将矩阵转化为二维数组 weights = weights.getA() #分别将类别为0,1的点存储在对应的数组中，方便之后绘点 xcord1 = [];ycord1 = [] xcord2 = [];ycord2 = [] for i in range(n): if int(labelMat[i]) == 1: xcord1.append(dataArr[i,1]);ycord1.append(dataArr[i,2]) else: xcord2.append(dataArr[i,1]);ycord2.append(dataArr[i,2]) fig = plt.figure() ax = fig.add_subplot(111) ax.scatter(xcord1,ycord1,s=30,c='red', marker='s') ax.scatter(xcord2,ycord2,s=30,c='green') x = arange(-3.0,3.0,0.1) y = (-weights[0][0] - weights[1][0] * x)/weights[2][0] ax.plot(x,y) plt.xlabel('X1');plt.ylabel('X2') plt.show()
```
 
```
测试截图如下:

5.2.4 训练算法：随机梯度上升
梯度上升算法在每次更新回归系数时都需要遍历整个数据集, 该方法在处理100个左右的数据集时尚可，但如果有数十亿样本和成千上万的特征，那么该方法的计算复杂度就太高了。一种改进方法是一次仅用一个样本点来更新回归系数，该方法称为随机梯度上升算法。由于可以在新样本到来时对分类器进行增量式更新，因而随机梯度上升算法是一个在线学习算法。与 “在线学习”相对应，一次处理所有数据被称作是“批处理” 。
随机梯度上升算法可以写成如下的伪代码：
所有回归系数初始化为1
对数据集中每个样本
计算该样本的梯度
使用

随机梯度上升算法代码:
def stocGradAscent0(dataMatrix, classLabels): m,n = shape(dataMatrix) alpha = 0.01 weights = ones(n) for i in range(m): h = sigmoid(sum(dataMatrix[i] * weights)) error = classLabels[i] - h weights = weights + alpha * error * dataMatrix[i] return weights
```
 
```
测试截图:

可以看到，随机梯度上升算法与梯度上升算法在代码上很相似，但也有一些区别：第一，后者的变量h和误差error都是向量，而前者则全是数值；第二，前者没有矩阵的转换过程，所有变量的数据类型都是Numpy数组。
执行完毕后将得到图5-5所示的最佳拟合直线图，该图与图5-4有一些相似之处。可以看到，拟合出来的直线效果还不错，但并不像图5-4那样完美。这里的分类器错分了三分之一的样本。
直接比较程序清单5-3和程序清单5-1的代码结果是不公平的，后者的结果是在整个数据集上迭代了500次才得到的。一个判断优化算法优劣的可靠方法是看它是否收敛，也就是说参数是否达到了稳定值，是否还会不断地变化？对此，我们在程序清单5-3中随机梯度上升算法上做了些修改，使其在整个数据集上运行200次。最终绘制的三个回归系数的变化情况如图5-6所示。

图5-6展示了随机梯度上升算法在200次迭代过程中回归系数的变化情况。其中的系数2 ,也就是图5-5中的

改进的随机梯度上升算法,代码如下:
def stocGradAscent1(dataMatrix, classLabels, numIter = 150): m,n = shape(dataMatrix) weights = ones(n) for j in range(numIter): dataIndex = list(range(m)) for i in range(m): alpha = 4/(1.0+j+i)+0.01 randIndex = int(random.uniform(0, len(dataIndex))) h = sigmoid(sum(dataMatrix[randIndex] * weights)) error = classLabels[randIndex] - h weights = weights + alpha * error * dataMatrix[randIndex] del(dataIndex[randIndex]) return weights
```
 
```
测试截图如下:

书中的代码解读:
程序清单5-4与程序清单5-3类似，但增加了两处代码来进行改进。一方面,

5.3 示例：从疝气病症预测病马的死亡率
示例:使用Logistic回归估计马疝病的死亡率
(1)收集数据：给定数据文件。
(2)准备数据：用Python解析文本文件并填充缺失值。
(3)分析数据：可视化并观察数据。
(4)训练算法：使用优化算法，找到最佳的系数。
(5)测试算法：为了量化回归的敢果，需要观察错误率。根据错误率决定是否回退到训练
阶段，通过改变迭代的次数和步长等参数来得到更好的回归系数。
(6)使用算法：实现一个简单的命令行程序来收集马的症状并输出预测结果并非难事，这
可以做为留给读者的一道习题。

5.3.1 准备数据：处理被据中的缺失值
数据中的缺失值是个非常棘手的问题，有很多文献都致力于解决这个问题。那么，数据缺失究竟带来了什么问题？假设有100个样本和20个特征，这些数据都是机器收集回来的。若机器上的某个传感器损坏导致一个特征无效时该怎么办？此时是否要扔掉整个数据？这种情况下，另外19个特征怎么办？它们是否还可用？答案是肯定的。因为有时候数据相当昂贵，扔掉和重新获取都是不可取的，所以必须采用一些方法来解决这个问题。
下面给出了一些可选的做法：
□使用可用特征的均值来填补缺失值；
□使用特殊值来±真补缺失值，如-1;
□忽略有缺失值的样本；
□使用相似样本的均值添补缺失值；
□使用另外的机器学习算法预测缺失值。

现在，我们对下一节要用的数据集进行预处理，使其可以顺利地使用分类算法。在预处理阶段需要做两件事：第一，所有的缺失值必须用一个实数值来替换，因为我们使用的 Numpy数据类型不允许包含缺失值。这里选择实数0来替换所有缺失值，恰好能适用于Logistic回归。这样做的直觉在于，我们需要的是一个在更新时不会影响系数的值。回归系数的更新公式如下：

预处理中做的第二件事是，如果在测试数据集中发现了一条数据的类别标签已经缺失，那么我们的简单做法是将该条数据丢弃。这是因为类别标签与特征不同，很难确定采用某个合适的值来替换。采用Logistic回归进行分类时这种做法是合理的，而如果采用类似KNN的方法就可能不太可行

5.3.2 测试算法：用Logistic回归进行分类
代码:
def classifyVector(inX, weights): prob = sigmoid(sum(inX * weights)) if prob > 0.5:return 1.0 else:return 0.0 def colicTest(): frTrain = open('horseColicTraining.txt') frTest = open('horseColicTest.txt') trainingSet = [];trainingLabels = [] for line in frTrain.readlines(): currLine = line.strip().split(' ') lineArr = [] for i in range(21): lineArr.append(float(currLine[i])) trainingSet.append(lineArr) trainingLabels.append(float(currLine[21])) trainWeights = stocGradAscent1(array(trainingSet),trainingLabels,500) errorCount = 0;numTestVec = 0.0 for line in frTest.readlines(): numTestVec += 1.0 currLine = line.strip().split(' ') lineArr = [] for i in range(21): lineArr.append(float(currLine[i])) if int(classifyVector(array(lineArr),trainWeights)) != int(currLine[21]): errorCount += 1 errorRate = (float(errorCount) / numTestVec) print("the rror rate of thits test is: %f" % errorRate) return errorRate def multiTest(): numTests = 10;errorSum=0.0 for k in range(numTests): errorSum += colicTest() print("after %d iterations the average err
测试截图:
查看全文

相关阅读:
《1024伐木累》-小白篇之月侠-总章节五
 《1024伐木累-周末特别篇》-中彩票了，开发APP
《1024伐木累》-有话直说，蛋疼~
《1024伐木累》- 老王请客吃晚饭，介绍对象
 《1024伐木累》-小白篇之丽姐（前篇）-总章节四
 程序员最值得听的歌曲TOP10
《1024伐木累》-职位不分贵贱，没房子怎么乐
 偶是一只别人眼里的程序猿
 《1024伐木累》-写代码写的娘炮了
 《1024伐木累》-小白篇之加班(结束篇)-总章节三

原文地址：https://www.cnblogs.com/kevincong/p/7818259.html