中国mooc北京理工大学机器学习第二周（二）：回归

zoukankan html css js c++ java

中国mooc北京理工大学机器学习第二周（二）：回归
一、线性回归（Liner Regression）

利用数理统计中的回归分析，来确定两种或两种以上变量间相互依赖的定量关系的统计方法。

线性回归是用最小平方函数对一个或多个自变量和因变量之间进行建模。

导入和使用比较简单。
from sklearn import linear_model linear = linear_model.LinearRegression() linear.fit(datasets_X, datasets_Y)
预测房屋价格。
import matplotlib.pyplot as plt import numpy as np from sklearn import linear_model # 读取数据集 datasets_X = [] datasets_Y = [] fr = open('prices.txt','r') lines = fr.readlines() for line in lines: items = line.strip().split(',') datasets_X.append(int(items[0])) datasets_Y.append(int(items[1])) length = len(datasets_X) datasets_X = np.array(datasets_X).reshape([length,1]) datasets_Y = np.array(datasets_Y) minX = min(datasets_X) maxX = max(datasets_X) X = np.arange(minX,maxX).reshape([-1,1]) linear = linear_model.LinearRegression() linear.fit(datasets_X, datasets_Y) # 图像中显示 plt.scatter(datasets_X, datasets_Y, color = 'red') plt.plot(X, linear.predict(X), color = 'blue') plt.xlabel('Area') plt.ylabel('Price') plt.show()
二、多项式回归（Polynomial Regression）

是研究一个因变量与多个自变量之间的多项式的回归分析。

多项式的优点是增加x的幂次来拟合曲线。
import matplotlib.pyplot as plt import numpy as np from sklearn import linear_model from sklearn.preprocessing import PolynomialFeatures # 读取数据集 datasets_X = [] datasets_Y = [] fr = open('prices.txt','r') lines = fr.readlines() for line in lines: items = line.strip().split(',') datasets_X.append(int(items[0])) datasets_Y.append(int(items[1])) length = len(datasets_X) datasets_X = np.array(datasets_X).reshape([length,1]) datasets_Y = np.array(datasets_Y) minX = min(datasets_X) maxX = max(datasets_X) X = np.arange(minX,maxX).reshape([-1,1]) poly_reg = PolynomialFeatures(degree = 2) X_poly = poly_reg.fit_transform(datasets_X) lin_reg_2 = linear_model.LinearRegression() lin_reg_2.fit(X_poly, datasets_Y) # 图像中显示 plt.scatter(datasets_X, datasets_Y, color = 'red') plt.plot(X, lin_reg_2.predict(poly_reg.fit_transform(X)), color = 'blue') plt.xlabel('Area') plt.ylabel('Price') plt.show()
三、岭回归（ridge regression）

一种专用于共性线性数据分析的有偏估计回归方法，改良最小二乘法。

sklearn。linear_model.Ridge中使用
from sklearn.linear_model import Ridge clf = Ridge(alpha=.5) X = [[0,0],[0,0],[1,1]] y = [0,.1,1] clf.fit(X,y) print(clf.coef_) print(clf.intercept_)
Ridge类已经设置了一系列默认的参数，因此clf = Ridge()即可以完成实例化。
但是，了解一下它的参数还是有必要的：
- alpha：正则化项的系数
- copy_X：是否对X数组进行复制，默认为True，如果选False的话会覆盖原有X数组
- fit_intercept：是否需要计算截距
- max_iter：最大的迭代次数，对于sparse_cg和lsqr而言，默认次数取决于scipy.sparse.linalg，对于sag而言，则默认为1000次。
- normalize：标准化X的开关，默认为False
- solver：在计算过程中选择的解决器
- auto：自动选择
- svd：奇异值分解法，比cholesky更适合计算奇异矩阵
- cholesky：使用标准的scipy.linalg.solve方法
- sparse_cg：共轭梯度法，scipy.sparse.linalg.cg,适合大数据的计算
- lsqr：最小二乘法，scipy.sparse.linalg.lsqr
- sag：随机平均梯度下降法，在大数据下表现良好。
注：后四个方法都支持稀疏和密集数据，而sag仅在fit_intercept为True时支持密集数据。
- tol：精度
- random_state：sag的伪随机种子
以上就是所有的初始化参数，当然，初始化后还可以通过set_params方法重新进行设定。

回归分析

在实例化Ridge类以后，就可以直接使用Ridge中集成的方法来进行回归了，与绝大多数的sklearn类一样，Ridge使用fit方法执行计算
- fit(X,y,sample\_weight=None)：X是一个array类型，这是特征矩阵，包含着数据集每一条记录的特征值（N*M），y是结果矩阵，同样是array类型，可以是N*1的形状，也可以是N*K的形状,sample_weight代表着权重，可以是一个实数，也可以给每一条记录分配一个值（array类型）。
得到回归函数后，我们可以通过predict来使用回归函数。
- predict(X)：X测试数据集，此方法将返回回归后的结果
对于模型的好坏，Ridge当然提供了评价的方法——score
- score(X,y,sample_weight=None)：X为测试数据，y是测试数据的实际值，类型与fit中的相同，sample是权重
在sklearn中并没有提供直接的查看回归方程的函数，因此查看的时候需要自己转化一下。其实，sklearn就是把相关系数和残差分开保存了，因此，查看的时候要调用coef_和intercept_两个属性。
- coef_：相关系数(array类型)
- intercept_：截距，在fit_intercept=False的时候，将会返回0
可能有用的方法

这些方法在sklearn的基类中就已经集成，但在一般情况下，通常不会用到。
以上。

：）
查看全文

相关阅读:
如何在ProXmoX VE 下虚拟机安装黑群晖 DSM 6.1.6
MySQL数据库（六） —— SQL注入攻击、视图、事物、存储过程、流程控制
 MySQL数据库（五）—— 用户管理、pymysql模块
 MySQL数据库（四）—— 记录相关操作之插入、更新、删除、查询（单表、多表）
MySQL数据库（三）—— 表相关操作（二）之约束条件、关联关系、复制表
 MySQL数据库（二）——库相关操作、表相关操作（一）、存储引擎、数据类型
 MySQL数据库（一）—— 数据库介绍、MySQL安装、基础SQL语句
 并发编程（六）——进程/线程池、协程、gevent第三方库
 并发编程（五）——GIL全局解释器锁、死锁现象与递归锁、信号量、Event事件、线程queue
并发编程（四）——线程、开启线程、守护线程、线程互斥锁

原文地址：https://www.cnblogs.com/deleteme/p/6937320.html

中国mooc北京理工大学机器学习第二周（二）：回归

回归分析

可能有用的方法