zoukankan      html  css  js  c++  java
  • Spark核心编程---创建RDD

    创建RDD:

    1:使用程序中的集合创建RDD,主要用于进行测试,可以在实际部署到集群运行之前,自己使用集合构造测试数据,来测试后面的spark应用流程。

    2:使用本地文件创建RDD,主要用于临时性地处理一些储存了大量数据的文件

    3:使用HDFS文件创建RDD,应该是最常用的生产环境处理方式,主要可以针对HDFS上储存的大数据,进行离线处理操作。

    //创建SparkConf
     SparkConf conf = new SparkConf()
                        .setAppName=("//跟类名一样")
                        .setMaster("local");
    
    //创建JavaSparkContext
    JavaSparkContext sc = new JavaSparkContext(conf);
    
    //要通过并行化集合的方式创建RDD,那么就调用Parallelize()方法
    List<Integer> numbers = Array.asList(1,2,3,4,5,6,7,8,9,10);
        
    JavaRDD<Integer> numberRDD =  sc .parallelize(numbers)  ;
    //也可以在这个方法参数位置在添加一个参数,表明创建多少个Partition
    sc.parallelize(numbers,5);
    
    //执行reduce算子操作
    int sum = numberRDD.reduce(new function2<Integer,Integer,Integer>(){
               private static final long serialVersionUID =1L;
                
                @override
            public Integer call(Integer num1, Integer num2) throw Exception{
                    return num1+num2
        }
    });
                //输出累加的和
              System.out.println("和:"+sum)
    
            //关闭JavaSparkContext
            sc.close();        

    额。。。至于其他的2种创建RDD 博打算以后再更

  • 相关阅读:
    Xib和storyboard对比
    IOS中用模型取代字典的好处
    IOS中UIButton和UIImageView的区别
    Response对象
    ASP.NET内置对象
    ASP.NET最常用的页面生命周期事件
    构造函数与析构函数
    C#程序设计基础——类、对象、方法
    CI框架分页(不解错误)
    Linux 下直连ipad mini充电(实战)
  • 原文地址:https://www.cnblogs.com/yeszero/p/6993317.html
Copyright © 2011-2022 走看看