zoukankan html css js c++ java

pyspark reduceByKey、groupByKey、groupBy、keyBy、subtractByKey 使用

reduceByKey、groupByKey

rdd=sc. parallelize([("one",1),("two",1),("one",1),("one1",1)])
rdd. reduceByKey(lambda x,y:x). count()
rdd1=sc. parallelize([("a",{"a":12}),("b",{"a1":45}),("a",{"a2":45})])
def fun(x):
    k,v=x
    d=dict()
    for i in v:d. update(i)
    return k,d
rdd1.groupByKey().map(lambda x:fun(x)).collect()
#[('a', {'a': 12, 'a2': 45}), ('b', {'a1': 45})]

groupBy、keyBy

rdd2=sc. parallelize([("a",{"a":13}),("b",{"a1":45}),("a",{"a2":45})])
def fun1(x):
    k,v=x
    d=dict()
    for i in v:d. update(i[1])
    return k,d
rdd2.groupBy(lambda x:x[0]).map(lambda x:fun1(x)). collect()
#[('a', {'a': 13, 'a2': 45}), ('b', {'a1': 45})]
rdd2.keyBy(lambda x:x[0]).collect()
#[('a', ('a', {'a': 13})), ('b', ('b', {'a1': 45})), ('a', ('a', {'a2': 45}))]

subtractByKey

x=sc. parallelize([("a",1),("b",4),("b",5),("a",2)])
y=sc. parallelize([("a",3),("c",None)])
x. subtractByKey(y). collect()
#[('b', 4), ('b', 5)]

查看全文

相关阅读:
subprocess 子进程模块
 3.5 魔法方法
 ThinkPHP中，display和assign用法详解
 linux常用指令
 退出当前Mysql使用的db_name 的方式
 PHP中GD库是做什么用的? PHP GD库介绍11111111
include跟include_once 以及跟require的区别
 全局变量跟局部变量
 关于define
创建、删除索引---高级部分

原文地址：https://www.cnblogs.com/boye169/p/14716265.html

最新文章
MySQL 5.7双主同步部分表
 xml和对象转换
 C# 协变和逆变
 C# 文件比较差异
 hadoop MapReduce 入门
 Sawgger框架
 shell脚本
 git配置
 设计模式
 MyBatis

热门文章
Git学习
 百度面经
 spring
Java基础
 Django
4.3 队列/管道
 4.2 进程
 4.1 socket
importlib 模块
 struct模块

Copyright © 2011-2022 走看看