用Spark做wordcount - 走看看

zoukankan html css js c++ java

用Spark做wordcount

#基于python的spark

#导入pyspark库

from pyspark import SparkContext

#配置SparkContext

sc = SparkContext('local','wordcount')

#创建一个新的RDD，加载本地文件

textFile = sc.textFile("file:///usr/local/spark/mycode/TestPackage/wordcount.txt")

#转换操作

#flatMap(func)：与map()相似，但每个输入元素都可以映射到0或多个输出结果

#map(func)：将每个元素传递到函数func中，并将结果返回为一个新的数据集

#reduceByKey(func)：应用于(K,V)键值对的数据集时，返回一个新的(K, V)形式的数据集，其中的每个值是将每个key传递到函数func中进行聚合

wordcount = textFile.flatMap(lambda line : line.split(" ")

).map(lambda word: (word,1)

).reduceByKey(lambda a, b : a+b)

#行动操作

#foreach(func) 将数据集中的每个元素传递到函数func中运行

wordcount.foreach(print)

结语:从代码和运行结果来看，Spark的代码比hadoop的代码简单了不止一倍，且运行时间也是非常的短

查看全文

相关阅读:
ActiveX Demo
VC6 DLL exports
进程间通信：剪切板
 Hook编程2:全局钩子
 Cookieless Session In WebService
Report predicts possible PS3 launch delay
原来是PS过的
 Xbox360日本卖不动.历代主机首周销量对比
 DirectX SDK (February 2006)
vbo的速度问题，没有想象中快

原文地址：https://www.cnblogs.com/SoftwareBuilding/p/9400077.html

Copyright © 2011-2022 走看看