zoukankan html css js c++ java

Spark入门案例

Scala版

import org.apache.spark.{SparkConf, SparkContext}

object WordCountScala {
  def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setAppName("WordCountScala").setMaster("local[1]")
    val sc: SparkContext = new SparkContext(conf)
    val data = Array("hello world", "simple app is good", "good world")
    val result: Array[(String, Int)] = sc.parallelize(data)
      .flatMap(_.split(" "))
      .map((_, 1))
      .reduceByKey(_ + _)
      .collect()
    result.foreach(println)
  }
}

Java版

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaSparkContext;
import scala.Tuple2;

import java.util.Arrays;
import java.util.List;


public class WordCountJava {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf().setAppName("WordCountJava").setMaster("local[1]");
        JavaSparkContext jsc = new JavaSparkContext(conf);
        List<String> data = Arrays.asList("hello world", "simple app is good", "good world");
        List<Tuple2<String, Integer>> result = jsc.parallelize(data)
                .flatMap(s -> Arrays.asList(s.split(" ")).iterator())
                .mapToPair(v -> new Tuple2<>(v, 1))
                .reduceByKey(Integer::sum)
                .collect();
        result.forEach(System.out::println);
    }
}

计算结果

(is,1)
(app,1)
(simple,1)
(hello,1)
(good,2)
(world,2)

可以看出在Spark中，Scala的语法显然要比Java简洁许多，毕竟Spark是用Scala写的，更加纯粹的函数式编程，建议尽可能优先采用Scala学习与使用Spark。

尊重写作权利，转载请注明出处 ^_^

查看全文

相关阅读:
js中的日期控件My97 DatePicker
list中慎用remove
ehcache注解全面解析
 servlet
SpringMVC注解@RequestMapping全面解析
 SpringMVC注解@RequestParam全面解析
 lucene全文检索
 jenkins和hudson
Mysql与PostgreSql数据库学习笔记
 前端学习笔记

原文地址：https://www.cnblogs.com/convict/p/14828084.html