zoukankan html css js c++ java

使用java开发spark的wordcount程序（多种实现）

package spark;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.SparkSession;
import scala.Tuple2;
import java.util.Arrays;
import java.util.List;

/**
 * Created by kkxwz on 2018/5/24
 */
public class WordCountApp {

    public static void main(String[] args) {

//        //spark 2.0版本之前
//        SparkConf sparkConf = new SparkConf().setAppName("WordCountApp").setMaster("local[2]");
//        JavaSparkContext spark = new JavaSparkContext(sparkConf);
//        JavaRDD<String> lines= spark.textFile("/Users/zl/data/sparksqldata/hello.txt");

//        spark 2.0版本之后（建议）
        SparkSession spark = SparkSession.builder()
                .master("local[2]")
                .appName("WordCountApp")
                .getOrCreate();

        JavaRDD<String> lines= spark.read().textFile("/Users/zl/data/sparksqldata/hello.txt").javaRDD();
        JavaRDD<String> words = lines.flatMap(line -> Arrays.asList(line.split("	")).iterator());
        JavaPairRDD<String, Integer> counts = words
                .mapToPair(word -> new Tuple2<String, Integer>(word, 1))
                .reduceByKey((x, y)-> x+y);

        //第一种输出方式：
        counts.foreach(count -> System.out.println(count._1() + ":" + count._2()));

        //第二种输出方式：
//        List<Tuple2<String, Integer>> output = counts.collect();
//
//        for(Tuple2<String, Integer> tuple : output){
//            System.out.println(tuple._1() + ":" + tuple._2());
//        }

        spark.stop();
    }

}

//　PS：
//   1、jdk版本至少为1.8
//   2、最好关联源码，查看返回类型学习！！！

查看全文

相关阅读:
数据持久化
 在职场久了，才知道这样安排工作日程，方能实现真正的高效
 HIS系统-如何设置单病种结算方式
 HIS系统-你给我制作一个二级库吧！
开机的一篇英文是怎么回事呢？
系统故障之-冲动360
每天看一遍你潦倒至今的原因
 如何配置给自己配置一台适合自己的台式机
 如何配置给自己配置一台电脑
 单网卡、双网卡如何实现同时上内网和外网

原文地址：https://www.cnblogs.com/kkxwz/p/9083796.html