zoukankan html css js c++ java

线性回归

线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。

特点：只有一个自变量的情况称为单变量回归，大于一个自变量情况的叫做多元回归

损失函数

总损失定义为：

y_i为第i个训练样本的真实值
h(x_i)为第i个训练样本特征值组合预测函数
又称最小二乘法

如何去减少这个损失，使我们预测的更加准确些？既然存在了这个损失，我们一直说机器学习有自动学习的功能，在线性回归这里更是能够体现。这里可以通过一些优化方法去优化（其实是数学当中的求导功能）回归的总损失！！！

优化算法

如何去求模型当中的W，使得损失最小？（目的是找到最小损失对应的W值）

线性回归经常使用的两种优化算法

正规方程

理解：X为特征值矩阵，y为目标值矩阵。直接求到最好的结果

缺点：当特征过多过复杂时，求解速度太慢并且得不到结果

梯度下降(Gradient Descent)

理解：α为学习速率，需要手动指定（超参数），α旁边的整体表示方向

沿着这个函数下降的方向找，最后就能找到山谷的最低点，然后更新W值

使用：面对训练数据规模十分庞大的任务，能够找到较好的结果

我们通过两个图更好理解梯度下降的过程

线性回归API

sklearn.linear_model.LinearRegression(fit_intercept=True)
- 通过正规方程优化
- fit_intercept：是否计算偏置
- LinearRegression.coef_：回归系数
- LinearRegression.intercept_：偏置
sklearn.linear_model.SGDRegressor(loss="squared_loss", fit_intercept=True, learning_rate ='invscaling', eta0=0.01)
- SGDRegressor类实现了随机梯度下降学习，它支持不同的loss函数和正则化惩罚项来拟合线性回归模型。
- loss:损失类型
  - loss=”squared_loss”: 普通最小二乘法
- fit_intercept：是否计算偏置
- learning_rate : string, optional
  - 学习率填充
  - 'constant': eta = eta0
  - 'optimal': eta = 1.0 / (alpha * (t + t0)) [default]
  - 'invscaling': eta = eta0 / pow(t, power_t)
    - power_t=0.25:存在父类当中
  - 对于一个常数值的学习率来说，可以使用learning_rate=’constant’ ，并使用eta0来指定学习率。
- SGDRegressor.coef_：回归系数
- SGDRegressor.intercept_：偏置

sklearn提供给我们两种实现的API，可以根据选择使用

波士顿房价预测

数据介绍

分析

回归当中的数据大小不一致，是否会导致结果影响较大。所以需要做标准化处理。同时我们对目标值也需要做标准化处理。

数据分割与标准化处理
回归预测
线性回归的算法效果评估

回归性能评估

均方误差(Mean Squared Error)MSE)评价机制：

注：y^i为预测值，¯y为真实值

sklearn.metrics.mean_squared_error(y_true, y_pred)

均方误差回归损失
y_true:真实值
y_pred:预测值
return:浮点数结果

from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression, SGDRegressor, Ridge
from sklearn.metrics import mean_squared_error
from sklearn.externals import joblib

def linear1():
    """
    正规方程的优化方法对波士顿房价进行预测
    :return:
    """
    # 1）获取数据
    boston = load_boston()

    # 2）划分数据集
    x_train, x_test, y_train, y_test = train_test_split(boston.data, boston.target, random_state=22)

    # 3）标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)

    # 4）预估器
    estimator = LinearRegression()
    estimator.fit(x_train, y_train)

    # 5）得出模型
    print("正规方程-权重系数为：
", estimator.coef_)
    print("正规方程-偏置为：
", estimator.intercept_)

    # 6）模型评估
    y_predict = estimator.predict(x_test)
    print("预测房价：
", y_predict)
    error = mean_squared_error(y_test, y_predict)
    print("正规方程-均方误差为：
", error)

    return None


def linear2():
    """
    梯度下降的优化方法对波士顿房价进行预测
    :return:
    """
    # 1）获取数据
    boston = load_boston()
    print("特征数量：
", boston.data.shape)

    # 2）划分数据集
    x_train, x_test, y_train, y_test = train_test_split(boston.data, boston.target, random_state=22)

    # 3）标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)

    # 4）预估器
    estimator = SGDRegressor(learning_rate="constant", eta0=0.01, max_iter=10000, penalty="l1")
    estimator.fit(x_train, y_train)

    # 5）得出模型
    print("梯度下降-权重系数为：
", estimator.coef_)
    print("梯度下降-偏置为：
", estimator.intercept_)

    # 6）模型评估
    y_predict = estimator.predict(x_test)
    print("预测房价：
", y_predict)
    error = mean_squared_error(y_test, y_predict)
    print("梯度下降-均方误差为：
", error)

    return None
if __name__ == "__main__":
    # 代码1：正规方程的优化方法对波士顿房价进行预测
    linear1()
    # 代码2：梯度下降的优化方法对波士顿房价进行预测
    linear2()

结果：

正规方程-权重系数为：
 [-0.63330277  1.14524456 -0.05645213  0.74282329 -1.95823403  2.70614818
 -0.07544614 -3.29771933  2.49437742 -1.85578218 -1.7518438   0.8816005
 -3.92011059]
正规方程-偏置为：
 22.62137203166228
预测房价：
 [28.23494214 31.51307591 21.11158648 32.66626323 20.00183117 19.06699551
 21.0961119  19.61374904 19.61770489 32.88592905 20.9786404  27.52841267
 15.54828312 19.78740662 36.89507874 18.81564352  9.34846191 18.49591496
 30.67162831 24.30515001 19.06869647 34.10872969 29.82133504 17.52652164
 34.90809099 26.5518049  34.71029597 27.42733357 19.096319   14.92856162
 30.86006302 15.8783044  37.1757242   7.80943257 16.23745554 17.17366271
  7.46619503 20.00428873 40.58796715 28.93648294 25.25640752 17.73215197
 38.74782311  6.87753104 21.79892653 25.2879307  20.43140241 20.47297067
 17.25472052 26.14086662  8.47995047 27.51138229 30.58418801 16.57906517
  9.35431527 35.54126306 32.29698317 21.81396457 17.60000884 22.07940501
 23.49673392 24.10792657 20.13898247 38.52731389 24.58425972 19.7678374
 13.90105731  6.77759905 42.04821253 21.92454718 16.8868124  22.58439325
 40.75850574 21.40493055 36.89550591 27.19933607 20.98475235 20.35089273
 25.35827725 22.19234062 31.13660054 20.39576992 23.99395511 31.54664956
 26.74584297 20.89907127 29.08389387 21.98344006 26.29122253 20.1757307
 25.49308523 24.08473351 19.89049624 16.50220723 15.21335458 18.38992582
 24.83578855 16.59840245 20.88232963 26.7138003  20.75135414 17.87670216
 24.2990126  23.37979066 21.6475525  36.8205059  15.86479489 21.42514368
 32.81282808 33.74331087 20.62139404 26.88700445 22.65319133 17.34888735
 21.67595777 21.65498295 27.66634446 25.05030923 23.74424639 14.65940118
 15.19817822  3.8188746  29.18611337 20.67170992 22.3295488  28.01966146
 28.59358258]
正规方程-均方误差为：
 20.630254348291196
特征数量：
 (506, 13)
梯度下降-权重系数为：
 [-0.54822073  1.4464675  -0.22154422  0.39773236 -2.17831164  2.58570593
 -0.02940976 -2.92775196  2.52165579 -1.9505169  -1.69912449  1.0781636
 -4.12852256]
梯度下降-偏置为：
 [22.50159081]
预测房价：
 [27.97352427 31.52340503 20.70036447 31.15886575 20.1498911  18.28543117
 20.7848885  20.21984956 20.01274913 32.10649772 20.69410057 27.23525328
 14.69917195 18.90176799 36.020544   18.63530452  7.63275311 18.6544128
 31.09308283 24.74005178 18.08396144 33.74855729 28.14322275 16.97637572
 34.89911836 26.61471854 36.35192005 28.63558818 18.0587059  15.84963895
 30.42532827 14.8199527  38.82756129  6.80581813 16.21541358 16.27563381
  6.56726007 19.56205898 39.8180483  29.76142841 25.61631634 16.62787834
 36.01756452  5.74352165 21.36338418 25.37124012 17.69365175 19.69198194
 15.74601758 25.19781403  7.08602575 28.16384523 29.27243781 15.5603172
  7.34660494 35.24684654 33.97022255 22.31310221 17.47900314 23.46066882
 23.59667041 24.32300644 20.5174874  39.13901308 24.97850472 18.66494108
 12.09342626  5.89898225 39.68279945 22.35877144 15.47619425 23.35593401
 40.38069229 22.4053138  36.60422831 27.13321938 22.81114392 19.57121962
 25.97766409 22.68842564 31.30966289 20.80935726 22.56170642 33.48255719
 26.41207511 20.26886403 29.088948   22.72527639 26.21551635 19.34640023
 27.35484442 22.36210056 18.78086691 16.34377993 13.22087959 17.61309029
 24.99376174 15.17514227 20.02213586 26.48785524 19.56648084 16.77300822
 23.66739732 23.25336033 20.94984984 36.2192629  16.07989762 21.85319257
 33.70299197 31.57787594 20.72454564 27.25534697 19.63151962 16.90673351
 22.13481485 23.96593272 29.8023986  27.52424559 23.70090731 13.7158367
 13.88030813  2.61748894 29.38375773 19.77336278 22.70491118 28.48245522
 27.87704294]
梯度下降-均方误差为：
 20.476433191431912