用Spark做单表关联 - 走看看

zoukankan html css js c++ java

用Spark做单表关联

##按照hadoop的思想胡乱搞了一下，但是结果不对。。。。

##需要再思考

from pyspark import SparkContext

sc = SparkContext('local','STJoin')

rdd = sc.textFile("file:///usr/local/spark/mycode/TestPackage/ST.txt")

num = rdd.flatMap(lambda line : line.split(" ")).map(lambda a : (a,1)).keys().collect()

num.remove('child')

num.remove('parent')

child=[]

parents=[]

STs=[]

for i in range(0,len(num)):

if i % 2 ==0:

child.append(num[i])

else:

parents.append(num[i])

for i in child:

for j in parents:

STs.append(i+" "+j)

STsRDD = sc.parallelize(STs)

relation = STsRDD.map(lambda a : (a,1)).reduceByKey(lambda a,b : (a+b))

relation.foreach(print)

查看全文

相关阅读:
Stack源码分析
 LinkedList源码分析 (JDK1.8)
AbstractSequentialList源码分析
 Vector源码分析
 ArrayList简介
 获取类运行
 类加载器的作用
 什么时候会发生类初始化
 IIS无法加载字体文件(*.woff,*.svg)的解决办法
 PowerDesigner 显示name(中文) 和显示code(字段名) 设置

原文地址：https://www.cnblogs.com/SoftwareBuilding/p/9417834.html

Copyright © 2011-2022 走看看