zoukankan      html  css  js  c++  java
  • 我的R 之路: R最常见的小基础。。。。。。。。

    一、在这我以鸢尾花为例

    iris
    dim(iris)###行列数目
    names(iris)###有那些列
    str(iris)###数据的结构如何
    attributes(iris)# 数据的列名、行名和数据结构
    head(iris)###前六行
    iris[,1:2]###所有行的一到二列
    iris[1,1:5]###第一行的1到5列
    iris[1:10,"Sepal.Length"]####看取Sepal.Length前是个数据
    iris$Sepal.Length[1:10]###取出变量数据
    #二、看看单个变量的情况
    summary(iris$Sepal.Length)###分析
    quantile(iris$Sepal.Length, c(0.1, 0.3, 0.65)) # 指定分位点对应的分位数
    mean(iris$Sepal.Length)
    median(iris$Sepal.Length)
    range(iris$Sepal.Length) # 返回均值、中位数和数据的范围
    #三、对于连续变量:
    var(iris) # 返回变量的方差
    hist(iris$Sepal.Length) # 画出变量的直方图,看看变量的分布情况
    plot(density(iris$Sepal.Length)) # 画出变量的密度函数图
    #四对于类别变量:
    table(iris$Species) # 统计每个类别的计数,了解一下各个类别的分布
    pie(table(iris$Species)) # 画出每个类别的占比饼图
    barplot(table(iris$Species)) # 画出柱状图
    #五、观察多个变量之间的关系
    首先看看变量之间的相关性:
    cov(iris[ , 1:4]) # 计算变量之间的协方差矩阵
    cor(iris[ , 1:4]) # 计算变量之间的相关系数矩阵
    #然后研究一些在不同的目标变量水平下,某变量的基本情况:
    aggregate(Sepal.Length~Species, summary, data=iris) # 对于Sepal.Length变量,在每个Species水平上执行summary计算
    boxplot(Sepal.Length~Species, data=iris) # 针对每个Species水平绘制Sepal.Length的盒形图
    with(iris, plot(Sepal.Length, Sepal.Width, col=Species, pch=as.numeric(Species))) #针对每个Species水平绘制两个变量的散点图,并用颜色和点状区分
    plot(jitter(iris$Sepal.Length), jitter(iris$Sepal.Width))

    接着用图形的方式研究变量之间的关系:

    pairs(iris) # 绘制任意两个矩阵之间的散点图,发现变量之间的相关性

    > iris[1,1:5]###第一行的1到5列
    Sepal.Length Sepal.Width Petal.Length Petal.Width Species
    1 5.1 3.5 1.4 0.2 setosa
    > iris[1:10,"Sepal.Length"]####看取Sepal.Length前是个数据
    [1] 5.1 4.9 4.7 4.6 5.0 5.4 4.6 5.0 4.4 4.9
    > iris$Sepal.Length[1:10]###取出变量数据
    [1] 5.1 4.9 4.7 4.6 5.0 5.4 4.6 5.0 4.4 4.9
    > #二、看看单个变量的情况
    > summary(iris$Sepal.Length)###分析
    Min. 1st Qu. Median Mean 3rd Qu. Max.
    4.300 5.100 5.800 5.843 6.400 7.900
    > quantile(iris$Sepal.Length, c(0.1, 0.3, 0.65)) # 指定分位点对应的分位数
    10% 30% 65%
    4.80 5.27 6.20
    > mean(iris$Sepal.Length)
    [1] 5.843333
    > median(iris$Sepal.Length)
    [1] 5.8
    > range(iris$Sepal.Length) # 返回均值、中位数和数据的范围
    [1] 4.3 7.9
    > #三、对于连续变量:
    > var(iris) # 返回变量的方差
    Sepal.Length Sepal.Width Petal.Length Petal.Width Species
    Sepal.Length 0.6856935 -0.0424340 1.2743154 0.5162707 NA
    Sepal.Width -0.0424340 0.1899794 -0.3296564 -0.1216394 NA
    Petal.Length 1.2743154 -0.3296564 3.1162779 1.2956094 NA
    Petal.Width 0.5162707 -0.1216394 1.2956094 0.5810063 NA
    Species NA NA NA NA NA
    Warning message:
    In var(iris) : 强制改变过程中产生了NA
    > hist(iris$Sepal.Length) # 画出变量的直方图,看看变量的分布情况
    > plot(density(iris$Sepal.Length)) # 画出变量的密度函数图
    > #四对于类别变量:
    > table(iris$Species) # 统计每个类别的计数,了解一下各个类别的分布

    setosa versicolor virginica
    50 50 50
    > pie(table(iris$Species)) # 画出每个类别的占比饼图
    > barplot(table(iris$Species)) # 画出柱状图
    > #五、观察多个变量之间的关系
    > 首先看看变量之间的相关性:
    > cov(iris[ , 1:4]) # 计算变量之间的协方差矩阵
    Sepal.Length Sepal.Width Petal.Length Petal.Width
    Sepal.Length 0.6856935 -0.0424340 1.2743154 0.5162707
    Sepal.Width -0.0424340 0.1899794 -0.3296564 -0.1216394
    Petal.Length 1.2743154 -0.3296564 3.1162779 1.2956094
    Petal.Width 0.5162707 -0.1216394 1.2956094 0.5810063
    > cor(iris[ , 1:4]) # 计算变量之间的相关系数矩阵
    Sepal.Length Sepal.Width Petal.Length Petal.Width
    Sepal.Length 1.0000000 -0.1175698 0.8717538 0.8179411
    Sepal.Width -0.1175698 1.0000000 -0.4284401 -0.3661259
    Petal.Length 0.8717538 -0.4284401 1.0000000 0.9628654
    Petal.Width 0.8179411 -0.3661259 0.9628654 1.0000000
    > #然后研究一些在不同的目标变量水平下,某变量的基本情况:
    > aggregate(Sepal.Length~Species, summary, data=iris) # 对于Sepal.Length变量,在每个Species水平上执行summary计算
    Species Sepal.Length.Min. Sepal.Length.1st Qu. Sepal.Length.Median
    1 setosa 4.300 4.800 5.000
    2 versicolor 4.900 5.600 5.900
    3 virginica 4.900 6.225 6.500
    Sepal.Length.Mean Sepal.Length.3rd Qu. Sepal.Length.Max.
    1 5.006 5.200 5.800
    2 5.936 6.300 7.000
    3 6.588 6.900 7.900

    六、为了了解更多的基础,我将会用小例子进行表达

    (1)pch的用法

    R语言绘图是通过函数命令及相应参数设置实现的。如plot(x,y),plot为绘图函数命令,x,y则是绘图参数,指定了绘图的数据向量。但这种最基本的绘图设置很难满足个性化绘图的要求,我们需要根据需要对图形元素进行设置。图形元素是各类图形的基本构成要素,因此,不管我们绘制那种类型的图形,都离不开图形元素的设定,要想绘制出漂亮的统计图形,我们首先要熟悉绘图函数最常见的图形元素设置。

    Ø  pch (绘图符号设置参数)

    绘图时我们可以用各类符号显示数据,pch是plotting character 的缩写。pch缺省下设定数据显示为点状。pch 符号可以使用0 : 25来表示26 个标识(参看图pch 符号),如pch=23设定数据点显示形状为菱形;当pch=0时不显示任何符号;当然我们也可以任意指定如#;%; ¤; j;+;¡; :; o等符号。值得注意的是,21 : 25这几个符号可以使用bg="颜色" 参数进行不同的颜色填充。颜色参数col则可以用于设置1:25所表示符号的颜色。

     

     

    #par(mfrow=c(1,3))#一页3图
    layout(matrix(c(1,2,3),nr=1,byrow=T))##按行
    plot(1:25,pch=1:25,cex=2.5,bg="blue", main="pch符号图",xlab="pch编码")
    plot(1:25,pch="$",cex=6,main="pch=$")####字体大小为六
    plot(1:26,pch=LETTERS[1:26],col=1:26)

     

  • 相关阅读:
    什么是 Visual VM?
    myeclipse svn 修改用户名和密码
    unix/linux共享内存应用与陷阱
    linux内存查看方式
    Linux下crontab命令的用法
    linux ftp命令参数全集
    XmlDataSource控件绑定GridView
    VC++发布Activex控件
    SqlServer数据库自定义Split()函数
    C和C++中的主要数据类型和字节大小
  • 原文地址:https://www.cnblogs.com/alsely/p/6746597.html
Copyright © 2011-2022 走看看