zoukankan      html  css  js  c++  java
  • python 进行机器学习

    summary: 本文总结了几种常见的线性回归的的方式以及各种方式的优缺点。

    1,简单现性回归(OSL):

    OSL:就是一种最为简单的普通最小二乘法的实现,y = a0 + a1*x1 + a2*x2 + a3*x3 + ....    。需要注意的是,对自变量(即训练样本中的特征)进行拟合都是一次方的,即简单的一次线性关系。我们只是对每个特征加了一个对应的权重而已。

    特点:

    对于普通最小二乘的系数估计问题,其依赖于模型各项的相互独立性。当各项是相关的,且设计矩阵的各列近似线性相关,那么,设计矩阵会趋向于奇异矩阵,这会导致最小二乘估计对于随机误差非常敏感,产生很大的方差。例如,在没有实验设计的情况下收集到的数据,这种多重共线性(multicollinearity)的情况可能真的会出现。

    示例:

    # 在 Jupyter notebook 中实现
    
    >>> from sklearn import linear_model
    >>> reg = linear_model.LinearRegression()
    >>> reg.fit ([[0, 0], [1, 1], [2, 2]], [0, 1, 2])
    LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)
    
    >>> reg.coef_
    array([ 0.5,  0.5]) # y = 0.5 * x1 + 0.5 * x2
    View Code

    1.2,一元多项式线性回归:

    同样是简单的线性回归,不同的是,对于样本中的每个特征值,进行不同幂的系数进行拟合。y = a0 + a1 * x + a2 * x^2 + a3 * x^3 + ....   .

    特点:对参数选择不当非常容易产生过拟合。

    示例:

    from sklearn import datasets
    from sklearn import metrics
    from sklearn.preprocessing import PolynomialFeatures
    from sklearn.linear_model import LinearRegression
    
    
    loaded_data = datasets.load_boston() # 处理数据
    data_X = loaded_data.data
    data_y = loaded_data.target
    X_train,X_test,y_train,y_test = train_test_split(data_X,data_y,test_size=0.3)
    
    poly_reg = PolynomialFeatures(degree=4)  # 设置最大次幂到 x^4
    X_train_trans = poly_reg.fit_transform(X_train)   # 对训练集进行拟合和转换,将学   到的特征保留到 poly_reg 中
    
    linreg2 = LinearRegression()        # 对转换过的数据进行拟合
    linreg2.fit(X_train_trans,y_train)
    
    y_pred = linreg2.predict(poly_reg.fit_transform(X_test))
    
    
    print("MSE:",metrics.mean_squared_error(y_test,y_pred))
    View Code

    2,岭回归(ride regression):

    岭回归(英文名:ridge regression, Tikhonov regularization)是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。本质是在自变量信息矩阵的主对角线元素上人为地加入一个非负因子。

    特点:在训练集中如果特征矩阵的两列特别相近,这样的矩阵就是奇异矩阵,在求 (X'X) 的行列式时会趋近于 0 。成为所谓的病态矩阵。通过选择一个合适的惩罚因子 a 来进行改进。具体原因参见百度百科:https://baike.baidu.com/item/岭回归/554917

    from sklearn.linear_model import Ridge
     
    ridge_reg = Ridge(alpha=1, solver="cholesky")
    ridge_reg.fit(X, y)
     
    y_pred=ridge_reg.predict(X)
     
    View Code
    # using Jupyter notebook
    >>> from sklearn import linear_model
    
    >>> reg = linear_model.Ridge (alpha = .5)
    >>> reg.fit ([[0, 0], [0, 0], [1, 1]], [0, .1, 1]) 
    Ridge(alpha=0.5, copy_X=True, fit_intercept=True, max_iter=None,
          normalize=False, random_state=None, solver='auto', tol=0.001)
    
    >>> reg.coef_
    array([ 0.34545455,  0.34545455])
    >>> reg.intercept_ 
    0.13636...
    View Code

    RidgeCV 能通过内置的 Alpha 参数的交叉验证来实现岭回归:

    >>> from sklearn import linear_model
    >>> reg = linear_model.RidgeCV(alphas=[0.1, 1.0, 10.0])
    >>> reg.fit([[0, 0], [0, 0], [1, 1]], [0, .1, 1])       
    RidgeCV(alphas=[0.1, 1.0, 10.0], cv=None, fit_intercept=True, scoring=None,
        normalize=False)
    
    >>> reg.alpha_                                      
    0.1
    View Code

    --------有空再更

    所有博文均为原著,如若转载,请注明出处!
  • 相关阅读:
    eclipse里面已经提交的svn提交
    session 失效
    svn版本管理
    前端控制台调试经验
    python001环境搭建及入门 http://python.jobbole.com/81332/
    eclipse自己写makefile 建工程
    编码风格
    算法导论第22章22.2广度优先搜索
    vnc相关
    eclipse相关设置
  • 原文地址:https://www.cnblogs.com/zpcoding/p/9813592.html
Copyright © 2011-2022 走看看