zoukankan      html  css  js  c++  java
  • R-6 线性回归模型流程

    本节内容:

    0:小知识

    1:新数据要如何进行分析

    2:第二步骤:理解数据

    3:第三步骤:相关分析

    4:特殊点

    0:小知识

    0.1:我们说对分析一个数据一般是分步骤的:那么我们可以对其中的步骤进行打标签,也就是跟书签一样。

    Ctrl+Shift+r

    0.2: 将图形赋值一个变量后,这个变量其中会有图形的一些信息如y轴x轴频数等信息 

    plot_draw = plot(,,,,) 

    0.3:如何查看R的新包  登录R官网-->https://mirrors.tongji.edu.cn/CRAN/

    一、新数据要如何进行分析

    二、第二步骤:理解数据

    统计量:summary(energraw)  names(energraw)   str(energraw)

    可视化:对y的变量进行直方图、箱线图

    attach(airquality)
    
    par(mfrow=c(1,2))
    boxplot(Temp,col = 45)
    hist(Temp)
    
    print(boxplot(Temp,col = 45))
    print(hist(Temp))
    

    三、第三步骤:相关分析

     

    3.1:一个一个的做plot

    plot(Ozone,Temp,col="tomato",main = "Temp & Ozone")
    plot(Temp~Ozone,data = airquality)
    abline(lm(Temp~Ozone,data = airquality))  
    #添加拟合线  系统对y和x做出的解释是怎么样的
    

    3.2:做相关系数矩阵

    library(corrgram)
    library(mvtnorm)
    library(kernlab)    ##要使用corrgram 需要安装mvtnorm,kernlab
    
    corrgram(qq,order = TRUE,lower.panel = panel.shade,
             upper.panel = panel.pie,text.panel = panel.txt,
             main="Corrgram of Airquality  intercorrelations")
    

    偏相关系数:

    #偏相关 我们在研究x1和x2的相关时候,可能会被x3或者其他的变量
    #影响到我们对x1和x2的相关系数 ,所以需要对其他的变量进行控制
    #控制其他的变量他的影响为0的情况下,x1和x2的相关系数
    
    qq = na.omit(airquality)
    cc = cor(qq)
    library(igraph)
    library(ggm)
    cc
    pcor(c(1,2,3,5,6),cc)  ##0.3523451  控制其他变量得出的相关
    cor(qq$Ozone,qq$Solar.R)  ##0.3483417  
    

    四、数据建模

    4.1 设置训练集 和测试集 两种方式

    #第一种方式
    qq = na.omit(airquality)
    train_number = sample(1:nrow(qq),nrow(qq)*0.8)
    
    train = qq[train_number,]
    test = qq[-train_number,]
    
    nrow(test)  ##22
    nrow(train) ##88 
    
    ##第二种方式 
    
    train_number2= sample(2,nrow(qq),replace = T,prob = c(0.8,0.1))
    train_2 = qq[train_number2,]
    test_2 = qq[-train_number2,]
    

    4.2 数据建模,一元线性回归

    with(train,plot(Temp,Ozone)) ##可以画出大概的散点图 
    runif = lm(train$Temp~train$Ozone,data = train)
    runif
    summary(runif) ##看模型好不一般我们看R方

     

    四、异常点判断

    https://zhuanlan.zhihu.com/p/28175779

    4.1 离群点判别方法三种

    1:做boxplot图

    2:学生化残差(studentized residual)

    因为该经理想要通过线性回归,来回答广告、定价和销量是否相关的问题,我们也可以通过回归的残差寻找“销量”的特异值。学生化残差是一种标准化的残差,它可以告诉我们哪些数据点的残差较大,超过±3的学生化残差可以被看作可能的离群值。在R软件中,可以使用rstudent()命令计算学生化残差。

    3:

    library(car)
    outlierTest(runif)
    

      

  • 相关阅读:
    软件架构入门
    深入理解JSCore
    原生开发小程序 和 wepy 、 mpvue, Taro 对比
    安装淘宝npm(cnpm)
    CSS预处理器—Sass、LESS和Stylus
    PHP和java比较
    DevOps 在公司项目中的实践落地
    Facebook的React Native之所以能打败谷歌的原因有7个(ReactNative vs Flutter)
    Android 9.0新特性
    主流前端框架对比:Vue.js , React, Angular.js
  • 原文地址:https://www.cnblogs.com/hero799/p/11984963.html
Copyright © 2011-2022 走看看