基于spark实现表的join操作

zoukankan html css js c++ java

基于spark实现表的join操作
1. 自连接

假设存在如下文件：

[root@bluejoe0 ~]# cat categories.csv 1,生活用品,0 2,数码用品,1 3,手机,2 4,华为Mate7,3

每一行的格式为：类别ID，类别名称，父类ID

现在欲输出每个类别的父类别的名称，类似于SQL的自连接，注意到join的外键其实是父类ID。

首先生成“父类ID->子类ID，子类名称”

val categories=sc.textFile("/root/categories.csv") val left = categories.map(_.split(",")).map(x=>(x(2)->Map("id"->x(0),"name"->x(1))))

left的内容为：

Array((0,Map(id -> 1, name -> 生活用品)), (1,Map(id -> 2, name -> 数码用品)), (2,Map(id -> 3, name -> 手机)), (3,Map(id -> 4, name -> 华为Mate7)))

接着生成“父类ID->父类ID，父类名称”

val right = categories.map(_.split(",")).map(x=>(x(0)->Map("pid"->x(0),"pname"->x(1))))

right的内容为：

Array((1,Map(pid -> 1, pname -> 生活用品)), (2,Map(pid -> 2, pname -> 数码用品)), (3,Map(pid -> 3, pname -> 手机)), (4,Map(pid -> 4, pname -> 华为Mate7)))

接下来，将这两个RDD进行合并，并按照key（key都是父类ID）进行reduce：

val merged = (left++right).reduceByKey(_++_)

merged的内容为：

Array((4,Map(pid -> 4, pname -> 华为Mate7)), (0,Map(id -> 1, name -> 生活用品)), (1,Map(id -> 2, name -> 数码用品, pid -> 1, pname -> 生活用品)), (2,Map(id -> 3, name -> 手机, pid -> 2, pname -> 数码用品)), (3,Map(id -> 4, name -> 华为Mate7, pid -> 3, pname -> 手机)))

搞定！！

可以采用flatMap来简化以上的写法：

val merged = categories.map(_.split(",")).flatMap((x)=>Array(x(2)->Map("id"->x(0),"name"->x(1)), x(0)->Map("pid"->x(0),"pname"->x(1)))).reduceByKey(_++_)

结果是一样一样的！！当然代码的可读性大打折扣了~~~

2. 两张表连接
查看全文

相关阅读:
Lua编程入门学习笔记1
面向对象S.O.L.I.D原则
 asp.net Mvc学习之URL路由
 Spring 3.x MVC 入门2 通过示例初步感受spring mvc
Spring 3.x MVC 入门1 图解MVC整体流程
 JSP自定义标签开发入门
 编译安装php5.3.8(含phpfpm)
CentOS 安装eaccelerator PHP加速
 Nginx + fastcgi 处理php
sql server charindex函数和patindex函数详解(转)

原文地址：https://www.cnblogs.com/bluejoe/p/5115835.html

基于spark实现表的join操作

1. 自连接

2. 两张表连接