主题:R统计图
作者:luomg
关键字:统计,R,ggplot2
1、什么是统计图?
统计图:统计图是从数据到几何对象的图形属性的一个映射
砖石重量对价格的散点图
qplot(carat,price,data=diamonds)
指定数据框据说是个好习惯
做数据变换
qplot(log(carat),log(price),data=diamonds)
图形属性
颜色 大小 形状 横坐标 纵坐标是统计图的图形属性,都可以映射为一组变量
标度
每一个图形属性都对应一个标度的函数,使得数据的取值映射到图形属性的有效取值,及控制点的对应图例的外观
set.seed(1410)
dsmall<-diamonds[sample(nrow(diamonds),100),]
qplot(carat,price,data=dsmall,colour=color)
qplot(carat,price,data=dsmall,shape=cut)
qplot(carat,price,data=diamonds,alpha=I(1/10)) #alpha图形属性设定透明度
图形属性技巧
分类变量:颜色和形状
连续性变量:大小,如果数量很大还得分面
geom几何对象
point
绘制散点图,当指定了x和y参数给qplot时的默认的设置
smooth
拟合一条合适的平滑曲线,并将曲线和标准差展示在图中,技巧如果加了分组分类的东西会拟合多条,比如颜色和形状
boxplot
箱线图,用于概括一系列点的分布情况
path
路径图,显示数据之间绘制连线,这类图的传统的作用是探索时间和其他变量之间的关系,路径图的方向是任意的
line
线条图,显示数据之间绘制连线,这类图的传统的作用是探索时间和其他变量之间的关系,线条图的方向是从左到又
一维分布的几何对象的选择是有变量类型来指定的
连续型变量
histogram 直方图,freqpoly 频率多边形 , density 密度曲线 ,如果只有x则默认为直方图
离散变量
bar条形图
集合对象认识
df<-data.frame(
x=c(3,1,5),
y=c(2,4,6),
label=c("a","b","c"))
p<- ggplot(df,aes(x,y))+xlab(NULL)+ylab(NULL)
p+geom_point()+labs(title="gem point")
p+geom_bar(stat="identity")+labs(title="geom_bar")
p+geom_line(stat="identity")+labs(title="geom_line")
p+geom_area(stat="identity")+labs(title="geom_area")
p+geom_path(stat="identity")+labs(title="geom_path")
p+geom_text(aes(label=label))+labs(title="geom_text")
p+geom_tile(aes(label=label))+labs(title="geom_tile")
p+geom_polygon(aes(label=label))+labs(title="geom_polygon")
span 平滑程度系数 0---1
特定数据几何对象选择
一维+连续 --》 直方图
标度
标度设置以 scales_xxx开头的函数
图形语法的映射就是实现真实数据到计算机能识别的数据的归一化处理 一一映射过程,比如颜色映射,实现颜色分类分组
主题设置
全局设置theme_set(theme_grey()|theme_bw())
局部设置:qplot....+theme_grey()
备份原来的主题可以通过:org<theme_set(theme_grey()|theme_bw())
时间转换
as.numeric(as.POSIXct(data23$LAST_UPD, format="%Y-%m-%d hh24:mi:ss"))
as.POSIXct(1440322200, origin = "1970-01-01") http://finzi.psych.upenn.edu/R/library/base/html/as.POSIXlt.html