zoukankan html css js c++ java

PyCharm 开发pyspark 应用程序

创建新的空项目：
在这里插入图片描述
测试一下环境是否ok

同时，也是为了配置一下spark环境
在这里插入图片描述

添加如下两个环境变量：

接下来：

在这里插入图片描述

在这里插入图片描述
达到这样，就ok

IDE开发环境就配置ok了，开始Coding…

from pyspark import SparkConf,SparkContext


if __name__ == '__main__':

    def my_map():
        conf = SparkConf().setMaster("local[2]").setAppName("spark-demo0401")
        sc = SparkContext(conf=conf)

        data = [1, 2, 3, 4, 5]
        inputRDD = sc.parallelize(data)

        mapRDD = inputRDD.map(lambda x:x*2)

        print(mapRDD.collect())
        sc.stop()


    def my_filter():
        conf = SparkConf()
        sc = SparkContext(conf=conf)

        data = [1,2,3,4,5]
        inputRDD = sc.parallelize(data)
        output = inputRDD.map(lambda x:x*2).filter(lambda x:x>4)
        print(output.collect())


    def my_flatMap():
        conf= SparkConf()
        sc = SparkContext(conf=conf)

        data = ["hello,spark","hello,world","hello,pyspark"]
        inputRDD = sc.parallelize(data)
        output = inputRDD.flatMap(lambda x:x.split(","))
        print(output.collect())

    def my_groupByKey():
        conf = SparkConf()
        sc = SparkContext(conf=conf)
        data = ["hello,spark", "hello,world", "hello,pyspark"]
        inputRDD = sc.parallelize(data)
            .flatMap(lambda x:x.split(","))
            .map(lambda x:(x,1))
        output = inputRDD.groupByKey().collect()
        print(output)


    def my_reduceByKey():
        conf = SparkConf()
        sc = SparkContext(conf=conf)
        data = ["hello,spark", "hello,world", "hello,spark"]
        inputRDD = sc.parallelize(data) 
            .flatMap(lambda x: x.split(",")) 
            .map(lambda x: (x, 1))
            .reduceByKey(lambda x,y:x+y)
        output = inputRDD.collect()
        print(output)

    def my_sortByKey():
        conf = SparkConf()
        sc= SparkContext(conf=conf)
        data = ["hello,spark", "hello,world", "hello,spark"]
        inputRDD = sc.parallelize(data).flatMap(lambda x:x.split(","))
            .map(lambda x:(x,1)).reduceByKey(lambda x,y:x+y)
            .map(lambda x:(x[1],x[0])).sortByKey(ascending=False).map(lambda x:(x[1],x[0]))

        print(inputRDD.collect())

    my_sortByKey()

查看全文

相关阅读:
APIO dispatching
奶牛抗议
 擦弹
 逃跑
 [Hnoi2016]网络
 [Ahoi2005]LANE 航线规划
 素数密度_NOI导刊2011提高（04）
P2939 [USACO09FEB]改造路Revamping Trails（分层图最短路）
洛谷P3396 哈希冲突（分块）
洛谷P4332 [SHOI2014]三叉神经树（LCT）

原文地址：https://www.cnblogs.com/liuge36/p/12614690.html