zoukankan html css js c++ java

回归（一）：标准线性回归

概念

线性回归（linear regression）意味着可以把输入项分别乘以一些常量，然后把结果加起来得到输出。

这个输出就是我们需要预测的目标值

而这些常量就是所谓的回归系数

我们把求这些回归系数的过程叫做回归，这个过程是对已知数据点的拟合过程

更一般化的解释来自Tom M.Mitchell的《机器学习》：回归的含义是逼近一个实数值的目标函数

标准线性回归

那应该怎么求回归系数w呢。一个常用的方法是找出使得预测值和实际值之间的误差最小的，为了避免正负误差之间的相互抵消，我们采用平方误差，也就是传说中的最小二乘法。

平方误差可以写作：

用矩阵表示写作：

现在需要对这个公式求最小，其实就变成了一个最优化问题。

对w求导，得到：

令其等于0，解出w如下：

这个公式中包含了对矩阵求逆的操作，所以需要在实际计算过程中判断矩阵是否可逆。

到这里，线性回归的主要思想就算完成，下面用数据集来试一下

例子中用到的数据集ex0.txt大概长成这样：

代码如下：

# -*- coding: utf-8 -*-
# Author: Alan
# date: 2016/4/7
from numpy import *
 
def loadData(filename):
    # 计算特征数量
    numFeat = len(open(filename).readline().split('	')) - 1
    fr = open(filename)
    dataMat = []; labelMat = []
    for line in fr.readlines():
        lineArr = []
        currLine = line.strip().split('	')
        for i in range(numFeat):
            lineArr.append(float(currLine[i]))
        dataMat.append(lineArr)
        labelMat.append(float(currLine[-1]))
    return dataMat, labelMat
 
 
# 标准的线性回归函数，使用最小二乘法
def standRegres(xArr, yArr):
    xMat = mat(xArr)
    # 和transpose()一个意思
    yMat = mat(yArr).T
    xTx = xMat.T*xMat
    # 计算行列式的值，如果等于零，则不可求逆
    if linalg.det(xTx) == 0.0:
        print 'cannot do inverse!'
        return
    # 回归系数
    ws = xTx.I * (xMat.T * yMat)
    return ws
 
# 测试标准回归，查看其求出的回归系数
def testStandR():
    filename = 'E:mlmachinelearninginactionCh08ex0.txt'
    xArr, yArr = loadData(filename)
    print "查看数据集的前两个实例的特征:"
    print  xArr[0:2]
    weights = standRegres(xArr, yArr)
    print "求出的系数为:"
    print weights

 
standRegres()函数实现了线性回归算法，然后用过运行testStandR()函数测试之，结果如下：

得出了系数就相当于得到了回归方程，现在通过一个输入就可以分别乘以回归系数得到输出，实现了预测的目的。


图示原始数据和拟合直线
我们可以通过直观的展示数据分布和拟合的直线来观察拟合的效果
绘图代码如下：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
def plotData():
    import matplotlib.pyplot as plt
     
    '''下面这段代码绘制原始数据的散点图'''
    filename = 'E:mlmachinelearninginactionCh08ex0.txt'
    xArr, yArr = loadData(filename)
    xMat = mat(xArr);yMat = mat(yArr)
    figure = plt.figure()
    ax = figure.add_subplot(111)
    # 取第二个特征绘图
    # flatten()函数转化成一维数组
    # matrix.A属性返回矩阵变成的数组，和getA()方法一样
    ax.scatter(xMat[:,1].flatten().A[0], yMat.T[:,0].flatten().A[0])
    '''下面这段代码绘制拟合直线'''
    # 返回给定数据的数组形式的拷贝
    xCopy = xMat.copy()
    xCopy.sort(0)
    weights = standRegres(xArr, yArr)
    print weights.shape
    yHat = xCopy * weights # yHat 表示拟合直线的纵坐标，用回归系数求出
    ax.plot(xCopy[:,1], yHat, c = 'green')
    plt.show()
绘图效果：
评价模型
这样的一个建模过程是非常直观也非常容易理解的。
几乎任一数据集都可以用上述方法建立模型，那么如何判断模型好坏呢？
这里引入一种计算预测序列和真实值序列匹配程度的方法，就是计算两个序列的相关系数
很方便的是Numpy库提供了相关系数的计算方法：
corrcoef(yEstimate, yActual)
运行代码：
1
2
3
4
5
6
    # 利用相关系数评价模型的匹配程度
    def eval():
        xMat = mat(xArr)
        yMat = mat(yArr)
        yHat = xMat * weights
        print corrcoef(yHat.T, yMat)
显示结果如下：
表示两者的相关系数为0.98，说明两者的相关性很大
这样就完成了一个标准的线性回归，但是很明显地，被拟合的数据中还有波动的特性没有被表达出来，
也就说事实上这样是欠拟合的。
那么如何才能进一步增强模型的表达能力呢，下一篇笔记将会解决这个问题。

总结
这种简单的最佳拟合直线把数据当做直线进行拟合，表现不错。
但是从绘制的散点图中可以看出数据还具有明显的波动特性，而这个特性是直线拟合所不能表达的，是它的缺陷
回归需要数值型数据，标称型数据需要转换才能使用

参考文献
《机器学习实战》
http://xuehy.github.io/2014/04/18/2014-04-18-matrixcalc/推导中用到了矩阵求导
这里是比较好的关于矩阵求导的讲解 

查看全文

相关阅读:
工作日时间，每10分钟执行一次磁盘空间检查，一旦发现任何分区利用率高于80%，就发送邮件报警
 编写脚本，使用for和while分别实现192.168.0.0/24网段内，地址是否能够ping通，若ping通则输出"success!"，若ping不通则输出"fail!"
显示统计占用系统内存最多的进程，并排序
 总结IP配置方法
 总结ip分类以及每个分类可以分配的IP数量
 总结描述TCP三次握手四次挥手
 描述TCP和UDP区别
 简述osi七层模型和TCP/IP五层模型
 创建一个至少有两个PV组成的大小为20G的名为testvg的VG;要求PE大小为16MB, 而后在卷组中创建大小为5G的逻辑卷testlv;挂载至/users目录
 【转载】Centos升级gcc至5.4.0

原文地址：https://www.cnblogs.com/mooba/p/5947109.html