继上一节常用函数,继续了解其他函数
1、desc()
这个函数和SQL中的排序用法是一样的,表示对数据进行倒序排序。
接下来我们看些例子。
a=sample(20,50,rep=T)
a
desc(a)
在使用desc后是直接在数据前面加上一个负号,一般情况下配合arrange()函数一起使用,功能强大。
2、distinct()
跟SQL中distinct函数用法类似,提取重复数据中的唯一值,另外这个函数输入数据只支持tbl数据格式,
先把上面的向量a转化成tbl
a<-tbl_df(a)
distinct(a)
可以看到数据由原来的50个数值,变成只有20个唯一值。
3、funs()
生成一个函数列表,这个在进行数据描述统计时会比较经常用到。
a<-tbl_df(1:10) summarise_all(a,funs(max,min,mean,sum))
可以一次性统计多个数据统计量。
4、groups()、group_by()、ungroup()、group_indices()、group_size()
group_by是对数据分组,groups 可以查看分组对象,ungroup()移除数据分组,group_indices列出每个分组标签,group_size计算分组数据量
a<-data.frame(id=rep(1:3,3), number=1:9) a
group_by(a,id)
数据按照id分成3组
group_by(a,ss=id+1)
group_by 后面的参数可操作较为灵活,可以多个变量或者变量间的运算。
groups(group_by(a,id))
ungroup(group_by(a,id))
数据分组被移除。
group_indices(mtcars, cyl)
列出cyl列数据4/6/8以对应标签1/2/3的形式排列
group_size(a)
[1] 9
求出分组数据量