zoukankan      html  css  js  c++  java
  • ggplot2作图详解:入门函数qplot

    ggplot2作图详解:入门函数qplot

     

    ggplot2的功能不用我们做广告,因为它的作者Hadley Wickham就说ggplot2是一个强大的作图工具,它可以让你不受现有图形类型的限制,创造出任何有助于解决你所遇到问题的图形。一点也不谦虚。 H.W.还说了另外一句话,“学习ggplot2你得忘记一些东西”,所以也有人说ggplot2是作图软件中的太极功。有点高深。

    那好吧,我就怀着无比崇敬的心情来学一学这太极图法。先安装软件包:

    install.packages("ggplot2")

    1 qplot函数参数

    Hadley Wickham同学很善解人意,知道我们接受一种新事物不会太容易,所以设计了个qplot函数。qplot 即“快速作图”(quick plot),顾名思义,能快速对数据进行可视化分析。它的用法和R base包的plot函数很相似,主要作用是让读者/用户在不知不觉中洗脑。先看看它的参数:

    qplot(x, y = NULL, ..., data, facets = NULL, margins = FALSE, geom = "auto", stat =list(NULL), position = list(NULL), xlim = c(NA, NA), ylim = c(NA, NA), log = "", main = NULL,xlab = deparse(substitute(x)), ylab = deparse(substitute(y)), asp = NA)
    • x, y: 意义明确,不用说了
    • data: 这个可以有,为数据框(data.frame)类型;如果有这个参数,那么x,y的名称必需对应数据框中某列变量的名称
    • facets: 图形/数据的分面。这是ggplot2作图比较特殊的一个概念,它把数据按某种规则进行分类,每一类数据做一个图形,所以最终效果就是一页多图
    • margins: 是否显示边界
    • geom: 图形的几何类型(geometry),这又是ggplot2的作图概念。ggplot2用几何类型表示图形类别,比如point表示散点图、line表示曲线图、bar表示柱形图等。
    • stat: 统计类型(statistics),这个更加特殊。直接将数据统计和图形结合,这是ggplot2强大和受欢迎的原因之一。
    • position: 图形或者数据的位置调整,这不算太特殊,但对于图形但外观很重要
    • xlim, ylim, xlab, ylab, asp: 初步可以按照plot函数的相应参数来理解

    作为入门的第一节,下面主要讲data和geom参数。

    2 qplot做散点图

    2.1 使用向量数据

    和plot函数一样,如果不指定图形的类型,qplot默认做出散点图。对于给定的x和y向量做散点图,qplot用法也和plot函数差不多:

    library(ggplot2) x <- 1:1000 y <- rnorm(1000) plot(x, y, main="Scatter plot by plot()")qplot(x,y, main="Scatter plot by qplot()")
    ggplot2作图详解1:入门函数qplot - xxx - xxx的博客ggplot2作图详解1:入门函数qplot - xxx - xxx的博客

    2.2 使用数据框数据

    虽然可以直接使用向量数据,但ggplot2更倾向于使用数据框类型的数据作图。使用数据框有几个好处:数据框可以用来存储数值、字符串、因子等不同类型 等数据;把数据放在同一个R数据框对象中可以避免使用过程中数据关系的混乱;数据外观的整理和转换方便。ggplot2中使用数据框作图的最直接的一个效 果就是:你可以直接用数据的分类特性(数据框中的列变量)来决定图形元素的外观,这个过程在ggplot2中称为映射(mapping),是自动的。

    在演示使用数据框作图的好处之前我们先了解以下ggplot2提供的一组有关钻石的示范数据 diamonds:

    str(diamonds)
    ## 'data.frame': 53940 obs. of 10 variables: 
    ## $ carat : num 0.23 0.21 0.23 0.29 0.31 0.24 0.24 0.26 0.22 0.23 ...
     ## $ cut : Ord.factor w/ 5 levels "Fair"<"Good"<..: 5 4 2 4 2 3 3 3 1 3 ... 
    ## $ color : Ord.factor w/ 7 levels "D"<"E"<"F"<"G"<..: 2 2 2 6 7 7 6 5 2 5 ... 
    ## $ clarity: Ord.factor w/ 8 levels "I1"<"SI2"<"SI1"<..: 2 3 5 4 2 6 7 3 4 5 ... 
    ## $ depth : num 61.5 59.8 56.9 62.4 63.3 62.8 62.3 61.9 65.1 59.4 ...
     ## $ table : num 55 61 65 58 58 57 57 55 61 61 ... 
    ## $ price : int 326 326 327 334 335 336 336 337 337 338 ...
     ## $ x : num 3.95 3.89 4.05 4.2 4.34 3.94 3.95 4.07 3.87 4 ... 
    ## $ y : num 3.98 3.84 4.07 4.23 4.35 3.96 3.98 4.11 3.78 4.05 ...
     ## $ z : num 2.43 2.31 2.31 2.63 2.75 2.48 2.47 2.53 2.49 2.39 ...

    可以看到这是数据框(data.frame)类型,有10个变量(列),每个变量有53940个测量值(行)。第一列为钻石的克拉数(carat),为数 字型数据;第二列为钻石的切工好坏(cut),为因子类型数据,有5个水平;第三列为钻石颜色(color),为7水平的因子;后面还有其他数据。由于数 据太多,我们只取前7列的100个随机观测值。数据基本就是我们平时记录原始数据的样式:

    set.seed(1000) # 设置随机种子,使随机取样具有可重复性 datax<- diamonds[sample(53940, 100),seq(1,7)] head(datax, 4)
    ## carat cut color clarity depth table price 
    ## 17686 1.23 Ideal H VS2 62.2 55 7130 
    ## 40932 0.30 Ideal E SI1 61.7 58 499
     ## 6146 0.90 Good H VS2 61.9 58 3989 
    ## 37258 0.31 Ideal G VVS1 62.8 57 977

    如果要做钻石克拉和价格关系的曲线图,用plot和qplot函数都差不多:

    plot(x=datax$carat, y=datax$price, xlab="Carat", ylab="Price", main="plot function")qplot(x=carat, y=price, data=datax, xlab="Carat", ylab="Price", main="qplot function")

    但如果要按切工进行分类作图,plot函数的处理就复杂了,你首先得将数据进行分类提取,然后再一个个作图。虽然可以用循环完成,但作图后图标的添加还得非常小心,你得自己保证数据和图形外观之间的对应关系:

    plot(x=datax$carat, y=datax$price, xlab="Carat", ylab="Price", main="plot function", type='n')cut.levels <- levels(datax$cut) cut.n <- length(cut.levels) for(i in seq(1,cut.n)){ subdatax<- datax[datax$cut==cut.levels[i], ] points(x=subdatax$carat, y=subdatax$price, col=i, pch=i)} legend("topleft", legend=cut.levels, col=seq(1,cut.n), pch=seq(1,cut.n),box.col="transparent", cex=0.8)

    但用ggplot2作图你需要考虑数据分类和图形元素方面的问题就很少,你只要告诉它用做分类的数据就可以了:

    qplot(x=carat, y=price, data=datax, color=cut, shape=cut, main="qplot function")
    ggplot2作图详解1:入门函数qplot - xxx - xxx的博客

    如果不喜欢它默认的图形背景,要改变也相当简单,ggplot2预置了几个模板,这些内容我们在后面再详细说:

    theme_set(theme_bw()) qplot(x=carat, y=price, data=datax, color=cut, shape=cut, main="qplot function")

    数据框可以存储不同的数据,而这些数据是有类型差别的。ggplot2作图对各类数据的要求也非常严格,用于分类的数据必需是因子类型,否则就出错,例如下面的语句就会出错:

    qplot(x=carat, y=price, data=datax, shape=depth)
    ## Error: A continuous variable can not be mapped to shape

    3 qplot做曲线图

    和plot函数一样,qplot也可以通过设置合适的参数产生曲线图,这个参数就是geom(几何类型)。图形的组合非常直接,组合表示几何类型的向量即可:

    qplot(x=carat, y=price, data=datax, color=cut, geom="line", main="geom="line"")qplot(x=carat, y=price, data=datax, color=cut, geom=c("line", "point"), main="geom=c("line", "point")")
    ggplot2作图详解1:入门函数qplot - xxx - xxx的博客

    4 qplot做统计图

    qplot是名副其实的qplot(quick plot)函数,通过改变几何类型geom参数的值你可以获得各种图形。geom参数可以设置的值和意义是:

    • point:散点图
    • line:曲线图
    • smooth:平滑曲线
    • jitter:另一种散点图
    • boxplot:箱线图
    • histogram:直方图
    • density:密度分布图
    • bar:柱状图

    前两种我们看过了,bar类型下面另讲,jitter以后有机会再说,看看其他4种类型:

    qplot(carat, price, data = diamonds, color=cut, geom = "smooth", main = "smooth") qplot(cut, price, data = diamonds, fill=cut, geom = "boxplot", main = "boxplot") qplot(price, data = diamonds, fill=cut, geom = "histogram", main = "histogram") qplot(price, data = diamonds,color=cut, geom = "density", main = "density")
    ggplot2作图详解1:入门函数qplot - xxx - xxx的博客
     
    ggplot2作图详解1:入门函数qplot - xxx - xxx的博客ggplot2作图详解1:入门函数qplot - xxx - xxx的博客

    能做什么样的图形取决于数据,这点我们都很清楚,所以不同类型的图使用的数据有所不同,参数也有变化。前面我们说ggplot2可以整合不同类型的图形到 一个图中,但很重要的一个前提是要组合的这些形状要能共享一组数据和参数。道理很简单,如果某人绞尽脑汁把散点图和密度分布图融合在一个图中展示,不出一 周他就要住进精神病院。

    qplot(price, data = diamonds, color=cut, geom = c("point", "density"))
    ## Error: geom_point requires the following missing aesthetics: y

    5 qplot做柱形图

    做柱形图很少直接用原始数据,一般都要通过计算变换如求平均值后再做。这其实是一个统计过程,所以多数柱形图应该也是统计类型的图。ggplot2对柱形 图的处理体现了这一思想:柱形图是一种特殊的直方图。所以ggplot2可以直接用原始数据做出柱形图,这是它的优点之一。下面按钻石切工对价格求平均值 后做柱形图:

    qplot(x=cut, y=price, data = diamonds, fill=cut, geom = "histogram", stat="summary",fun.y="mean")

    stat参数表示统计的类型,而fun.y则表示应用于统计的函数。把geom参数值换成bar得到相同的图形:

    qplot(x=cut, y=price, data = diamonds, fill=cut, geom = "bar", stat="summary", fun.y="mean")

    如果不嫌麻烦,可以先计算出平均值再柱形图也没什么问题。引物bar图形的本质是统计图形,所以得设置stat参数为identity,即不做统计:

    (mean.price <- with(diamonds, aggregate(price~cut, FUN=mean)))
    ## cut price 
    ## 1 Fair 4359 
    ## 2 Good 3929 
    ## 3 Very Good 3982
     ## 4 Premium 4584
     ## 5 Ideal 3458
    qplot(x=cut, y=price, data=mean.price, fill=cut, geom="bar", stat="identity")

    通过学习上面的简单例子可能会有点收获:了解了ggplot2的qplot函数能用什么样的数据做什么图,知道一点关于ggplot2几何类型和统计类型 的概念,如何从传统的R语言作图中转过脑筋来。但也仅此而已。ggplot2作图是基于图层的,从上面qplot函数的使用例子中显然看不出来,除此外还 有很多深层次的概念、理论和函数。


    sessionInfo()
    ## R version 3.0.1 (2013-05-16)
     ## Platform: x86_64-pc-linux-gnu (64-bit) 
    ## ## locale: ## [1] LC_CTYPE=zh_CN.UTF-8 LC_NUMERIC=C
     ## [3] LC_TIME=zh_CN.UTF-8 LC_COLLATE=zh_CN.UTF-8
     ## [5] LC_MONETARY=zh_CN.UTF-8 LC_MESSAGES=zh_CN.UTF-8
     ## [7] LC_PAPER=C LC_NAME=C
     ## [9] LC_ADDRESS=C LC_TELEPHONE=C
     ## [11] LC_MEASUREMENT=zh_CN.UTF-8 LC_IDENTIFICATION=C 
    ## ## attached base packages: 
    ## [1] tcltk stats graphics grDevices utils datasets methods 
    ## [8] base 
    ## ## other attached packages:
     ## [1] mgcv_1.7-24 ggplot2_0.9.3.1 knitr_1.3.4
     ## ## loaded via a namespace (and not attached):
     ## [1] colorspace_1.2-2 dichromat_2.0-0 digest_0.6.3 
    ## [4] evaluate_0.4.4 formatR_0.8 grid_3.0.1
     ## [7] gtable_0.1.2 highr_0.1.2 labeling_0.2
     ## [10] lattice_0.20-15 MASS_7.3-27 Matrix_1.0-12
     ## [13] munsell_0.4.2 nlme_3.1-110 plyr_1.8
     ## [16] proto_0.3-10 RColorBrewer_1.0-5 reshape2_1.2.2 
    ## [19] scales_0.2.3 stringr_0.6.2 tools_3.0.1

  • 相关阅读:
    黄聪:PHP获取MAC地址(转)
    黄聪:HTC同步出现太多联系人删除项解决方法
    黄聪:WordPress Cron 定时任务(转)
    黄聪:wordpress后台发布文章,自定义栏目和字段
    黄聪:如何在wordpress任何一个页面调用“插入图片”按钮,实现上传图片功能
    黄聪:获取搜索引擎来源访客的搜索关键词
    黄聪:用php判断当前用户访问网站是否为手机登录
    黄聪:php计算获取页面执行时间
    黄聪:抓取网页链接的php类:snoop
    黄聪:解决wordpress定时发布文章失败”丢失计划任务”的插件
  • 原文地址:https://www.cnblogs.com/yjd_hycf_space/p/6709382.html
Copyright © 2011-2022 走看看