zoukankan      html  css  js  c++  java
  • R语言的可视化

    1. 完整的数据分析流程

    • 定义研究问题
    • 定义理想数据集
    • 确定能够获取什么数据
    • 清理数据

    2. 变量的类型:

    • 数值变量(可进行加减乘除运算):连续(可在给定区间取任意数值)、离散(给定集合内不连续取值)
    • 分类变量(取值空间有限,不能进行运算):有序(顺序有意义)、无序(不可比较)
    1. 数值变量特征和可视化

    集中趋势测量(均值、中位数、众数)
    均值=(数值之和)/(数值个数)
    中位数=排序后位于正中间的一个数(奇数)、排序后位于正中间的两个数的均值(偶数)
    众数=出现次数最多的数

    分散趋势测量(值域、方差、标准差、四分位距)

    举个例子:

    其中,中位数、四分位距是稳健统计量,受极端值影响小。

    一个数值变量的可视化
    柱状图:横坐标表示预测值所有可能的取值,纵坐标表示频数。
    点图:横坐标表示预测值所有可能的取值,纵坐标表示出现的次数。比如出现了一次,就会对应一个点。
    箱图:展示25%分位点、50%分位点、75%分位点。在范围(25%分位点-1.5四分位距,75%分位点+1.5四分位距)之外的点命异常点。

    两个数值变量的关系
    散点图:显示方向、形状、强度、极端值。比如正相关、负相关。

    2. 分类变量的特征和可视化

    一个分类变量可视化
    频率表:表格的形式展现数据的分类水平出现的频率。
    条形图:横坐标表示分类变量的每一个水平。

    两个分类变量的关系
    关联表
    相对频率表
    分段条形图、相对频率的分段条形图
    马赛克图

    3.一个分类变量一个数值变量

    并排箱图:横轴分类变量取值,纵轴为每个分类变量下对应的数值变量。

    3. 三大绘图系统

    基本绘图系统
    艺术家的调色板,绘图始于空白画布。分为两个步骤 = 图+修饰添加 = 执行一系列的函数。适于绘制2D图。
    绘图函数(graphics包)---plot/ hist / boxplot /points /lines /text /title / axis,调用函数的时候会启动一个图形设备。
    plot(x,y,...),其中重要的参数有:xlab / ylab:x轴y 轴的标签,lwd线宽,lty线的类型(2为虚线),pch点,col颜色。
    par(),用于设置全局参数,bg:背景颜色,mar边距,las标签排版,mfrow行列,mfcol列行。
    举例子:

    hist(airquality$Wind,xlab = "wind")
    #一个数值变量的直方图
    

    boxplot(airquality$Wind,xlab="wind",ylab="speed")
    #一个数值变量的箱图
    

    boxplot(Wind~Month,airquality)
    #一个数值变量一个分类变量的并排箱图,横轴为分类水平。
    

    plot(airquality$Wind,airquality$Temp)
    #风速与温度的散点图,也可以写成with函数:
    with(airquality,plot(Wind,Temp))
    

    with(subset(airquality,Month==9),points(Wind,Temp,col="red"))
    with(subset(airquality,Month==5),points(Wind,Temp,col="blue"))
    with(subset(airquality,Month %in% c(6,7,8)),points(Wind,Temp,col="black"))
    不同月份的点用不同颜色绘制
    

    fit<-lm(Temp~Wind,airquality)
    abline(fit,lwd=2)
    #做一条拟合线
    

    legend("topright",pch=1,col = c("red","blue","black"),legend = c("sep","may","other"))
    #做图例
    

    par(mfrow=c(1,2))
    hist(airquality$Wind)
    hist(airquality$Temp)
    #将屏幕分为两个部分作图。
    

  • 相关阅读:
    实时获取管道信息的一个小框架
    multiprocessing还是threading?
    QThread的一些使用心得
    super超类继承特点小结
    打靶总结
    简析Colorspace
    第一个Unity3D脚本
    一个新的计划,写在年末
    lambda函数的特性
    Nuke Python module的使用
  • 原文地址:https://www.cnblogs.com/sanmenyi/p/7193414.html
Copyright © 2011-2022 走看看