dplyr

zoukankan html css js c++ java

dplyr

The d is for dataframes, the plyr is to evoke pliers. Pronounce however you like.

dplyr包可用于处理 R 内部或者外部的结构化数据，相较于plyr包，dplyr包专注接受 data.frame 对象，大幅提高了速度，并且提供了更稳健的数据库接口。同时，dplyr包可用于操作Spark的dataframe。

官网：https://cran.r-project.org/web/packages/dplyr/index.html

包中的函数查询：https://cran.r-project.org/web/packages/dplyr/dplyr.pdf

安装dplyr包

install.packages("dplyr")

使用dplyr包

library("dplyr")

dplyr包中的重要函数

-- 根据值选择相应的行 filter()

-- 对行重新排序 arrange()

-- 根据列名选择相应的列 select()

-- 根据已知的列创建新的列 mutate()

-- 将许多值塌缩为单个描述性汇总 summarize()

-- 分组 group_by()   这些函数都可以通过 group_by() 衔接起来，该函数改变上述每个函数的作用域，从操作整个数据集到按组与组进行操作。

使用 nycflights13包中的数据集

install.packages("nycflights13")

library("nycflights13")

使用 filter() 函数过滤

filter(flights, month == 1, day == 1) # 过滤数据

filter(flights, month == 11 | month == 12)   # 逻辑或

filter(flights, month %in% c(11, 12)) # %in% 判断是否存在；该语句可以替换上面的语句

使用 arrange() 函数对行重新排序

arrange(flights, desc(arr_delay))    # 按照列 arr_delay 进行降序排列

使用 select() 函数选择指定列

select(flights, year, month, day)    # 选择列 year month day

select(flights, year:day)    # 选择 year 和 day 之间的所有列

select(flights, -(year:day))    # 反向选择选择 year 和 day 之间的所有列以外的所有列

select(flights, starts_with("yea"))    # 选择列名以 "yea" 开头的列

select(flights, ends_with("ear"))    # 选择列名以 "ear" 结尾的列

select(flights, contains("ea"))    # 选择列名中包含 "ea" 的列

select(flights, matches("ea"))    # 使用正则表达式选择列名中匹配到 "ea" 的列

select(flights, num_range("x", 1:3))    # 使用正则表达式选择列名中匹配到 "x1" "x2" "x3" 的列

select(flights, time_hour, air_time, everything())    # 将 time_hour列和 air_time列提到前面

查看 select() 函数的更多内容 ?select()

rename(flights, tail_num = tailnum)     # 将列名 tailnum 改为 tail_num

mutate(flights_sml, gain = arr_delay - dep_delay, speed = distance / air_time * 60 )     # 在原数据集flights_sml的基础上添加两列 gain, speed 产生一个新的数据集，原数据集不变。

transmute(flights, gain = arr_delay - dep_delay, hours = air_time / 60, gain_per_hour = gain / hours)    # 只生成新的3列 gain, hours, gain_per_hour，输出结果中没有元数据集

transmute(flights, dep_time, hour = dep_time %/% 100, minute = dep_time %% 100)    # %/% 整除运算； %% 取余运算

使用 summarise() 函数对数据进行描述性汇总结果只输出指定的类

常与 group_by() 一起使用从而实现将数据分组后再统计

summarize(flights, delay = mean(dep_delay, na.rm = TRUE))      #

by_day <- group_by(flights, year, month, day)

summarize(by_day, delay = mean(dep_delay, na.rm = TRUE))

not_cancelled <- flights %>% filter(!is.na(dep_delay), !is.na(arr_delay)) # 使用管道操作

not_cancelled %>% group_by(year, month, day) %>% summarize(mean = mean(dep_delay))    # 使用管道操作

delays %>% filter(n > 25) %>% ggplot(mapping = aes(x = n, y = delay)) + geom_point(alpha = 1/10)

batting <- as_tibble(Lahman::Batting)

batting %>% group_by(playerID) %>% summarize(ba = sum(H, na.rm = TRUE) / sum(AB, na.rm = TRUE), ab = sum(AB, na.rm = TRUE)) %>% filter(ab > 100) %>% ggplot(mapping = aes(x = ab, y = ba)) + geom_point() + geom_smooth(se = FALSE)     # 分组 > 汇总 > 过滤 > 绘图

not_cancelled %>% group_by(dest) %>% summarize(carriers = n_distinct(carrier)) %>% arrange(desc(carriers))    # 分组 > 汇总 > 降序排列

not_cancelled %>% group_by(year, month, day) %>% summarize(avg_delay1 = mean(arr_delay), avg_delay2 = mean(arr_delay[arr_delay > 0]))    # 分组 > 汇总

not_cancelled %>% group_by(dest) %>% summarize(distance_sd = sd(distance)) %>% arrange(desc(distance_sd))    # 分组 > 汇总 > 降序排列

not_cancelled %>% group_by(year, month, day) %>% summarize( first = min(dep_time), last = max(dep_time))    # 分组 > 汇总（取每一组的最大值和最小值）

查看全文

相关阅读:
【总结】数组去重的3种方式
 【原】运动版的轮播图，有左右按钮和单独分页，原生JS版
 【巩固】JS中的封闭空间
 IIS 配置.svc的MIME映射
 c# 线程定时器 System.Threading.Timer 转载
 QTcreator快捷操作，转载
 C#中的钩子说明
 anaconda更新库命令
 Chart控件，chart、Series、ChartArea曲线图绘制的重要属性介绍
 c# chart控件柱状图，改变柱子宽度

原文地址：https://www.cnblogs.com/0820LL/p/11188746.html

安装dplyr包

使用dplyr包

dplyr包中的重要函数

使用 nycflights13包中的数据集

使用 filter() 函数过滤

使用 arrange() 函数对行重新排序

使用 select() 函数选择指定列

使用 summarise() 函数对数据进行描述性汇总 结果只输出指定的类

常与 group_by() 一起使用 从而实现将数据分组后再统计

使用 summarise() 函数对数据进行描述性汇总结果只输出指定的类

常与 group_by() 一起使用从而实现将数据分组后再统计