zoukankan      html  css  js  c++  java
  • DataFrame数据批量做线性回归

        我们通常用pandas读取csv文件为DataFrame数据格式,如下图,是部分县2001年到2009年的某种作物的产量数据。我们希望求得9年的增长趋势,即求一个一元线性回归模型的斜率,这个时候便可以调用python的sklearn包中的线性回归模型计算。


    思路:

    将2001-2009年作为自变量X,需要注意的是sklearn的模型输入的变量是矩阵,因此要用numpy将list转化为矩阵,然后用ix方法定位每行数据为因变量y。pandas数据索引可参考博文点击打开链接。当然,最后输出的斜率的形式也是矩阵的数组,用简单的嵌套循环将其转为列表就可以了。


    具体代码如下:

    from pandas import DataFrame,Series
    import pandas as pd
    from sklearn import linear_model
    import numpy as np
    
    def trend()
        
        crop = pd.read_csv('....')
        X = np.array([[2001,2002,2003,2004,2005,2006,2007,2008,2009]]).T
        regr = linear_model.LinearRegression()
        trend = []
    
        for i in range(0,1271):
            y = rice.ix[i,2:11]
            regr.fit(X,y)
            trend.append(regr.coef_)
    
        # list in list, we need to change data struction
        trend1 = []
        for i in trend:
            for j in i:
                trend1.append(j)
        trend2 = Series(trend1)    
        rice_trend = pd.concat([rice,trend2],axis=1)
        
        return rice_trend
    
    rice_trend.to_csv('rice_trend.csv', index=False)

    最后效果如下:


  • 相关阅读:
    C++窗体应用程序
    C++继承方式简介及公有继承
    C++(继承的基本概念和语法)
    python(12)---科赫特雪花
    python(11)---pyinstaller
    20200914 day9 数据结构复习(一)
    20200914 day9 刷题记录
    20200913 day8模拟(二)
    20200912 day7 刷题记录
    20200912 day7 图论复习(一)
  • 原文地址:https://www.cnblogs.com/mtcnn/p/9411612.html
Copyright © 2011-2022 走看看