zoukankan      html  css  js  c++  java
  • dplyr 数据操作 常用函数(2)

    继上一节常用函数,继续了解其他函数

    1、desc()

    这个函数和SQL中的排序用法是一样的,表示对数据进行倒序排序。

    接下来我们看些例子。

    a=sample(20,50,rep=T)
    a

    desc(a)
    

     

    在使用desc后是直接在数据前面加上一个负号,一般情况下配合arrange()函数一起使用,功能强大。

    2、distinct()

    跟SQL中distinct函数用法类似,提取重复数据中的唯一值,另外这个函数输入数据只支持tbl数据格式,

    先把上面的向量a转化成tbl

    a<-tbl_df(a)
    distinct(a)

    可以看到数据由原来的50个数值,变成只有20个唯一值。

    3、funs()

    生成一个函数列表,这个在进行数据描述统计时会比较经常用到。

    a<-tbl_df(1:10)
    summarise_all(a,funs(max,min,mean,sum))
    

    可以一次性统计多个数据统计量。

    4、groups()、group_by()、ungroup()、group_indices()、group_size()

    group_by是对数据分组,groups 可以查看分组对象,ungroup()移除数据分组,group_indices列出每个分组标签,group_size计算分组数据量

    a<-data.frame(id=rep(1:3,3),
                  number=1:9)
    a
    

    group_by(a,id)
    

    数据按照id分成3组

    group_by(a,ss=id+1)
    

     

    group_by 后面的参数可操作较为灵活,可以多个变量或者变量间的运算。

    groups(group_by(a,id))
    

     

    ungroup(group_by(a,id))
    

    数据分组被移除。

    group_indices(mtcars, cyl)
    

     

    列出cyl列数据4/6/8以对应标签1/2/3的形式排列

    group_size(a)
    

    [1] 9 

     求出分组数据量

        

  • 相关阅读:
    P1242 新汉诺塔(hanio)
    P2878 [USACO07JAN]保护花朵Protecting the Flowers
    P2096 最佳旅游线路
    [P1363] 幻想迷宫
    在矩阵上跑最小生成树
    tarjan+topsort
    tarjan缩点
    【P3398]】仓鼠找sugar
    树形数组暴力
    解决跨域问题
  • 原文地址:https://www.cnblogs.com/wkslearner/p/5757087.html
Copyright © 2011-2022 走看看