zoukankan      html  css  js  c++  java
  • RDD的创建方式

    package rdd.builder
    
    import org.apache.spark.rdd.RDD
    import org.apache.spark.{SparkConf, SparkContext}
    
    object Spark_01_RDD_Memory {
    
      def main(args: Array[String]): Unit = {
        //TODO 准备环境
        val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
        val sc = new SparkContext(sparkConf)
        //TODO 创建RDD
        //从内存中创建RDD,将内存中集合的数据作为处理的数据源
        val seq=Seq[Int](1,2,3,4)
    
        //parallelize并行
        //val rdd: RDD[Int] = sc.parallelize(seq)
        val rdd: RDD[Int] = sc.makeRDD(seq)
    
        rdd.collect().foreach(println)
        //TODO 关闭环境
        sc.stop()
      }
    }
    package rdd.builder
    
    import org.apache.spark.rdd.RDD
    import org.apache.spark.{SparkConf, SparkContext}
    
    object Spark_02_RDD_File {
    
      def main(args: Array[String]): Unit = {
        //TODO 准备环境
        val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
        val sc = new SparkContext(sparkConf)
        //TODO 创建RDD
        //从文件中创建RDD,将文件中的数据作为处理的数据源
        //path路径以当前环境的根目录为基准,可以写绝对路径,也可以写相对路径
        //val rdd: RDD[String] = sc.textFile("D:\SoftWare\IDEA\workspace\SparkStudy\datas\1.txt")
        //相对路径
        //val rdd: RDD[String] = sc.textFile("datas/1.txt")
        //目录名称
        //val rdd: RDD[String] = sc.textFile("datas")
        //通配符
        //val rdd: RDD[String] = sc.textFile("datas/1*.txt")
        //分布式存储系统路径
        val rdd: RDD[String] = sc.textFile("hdfs://master:9000/test")
        rdd.collect().foreach(println)
        //TODO 关闭环境
        sc.stop()
      }
    }
  • 相关阅读:
    Centos R安装
    python 排序函数L.sort()和sorted()
    系统评测指标:准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F-Score
    linux exec使用小结
    linux 日志文件
    数据结构中的八大排序算法
    Boyer-Moore(BM)算法,文本查找,字符串匹配问题
    内存为程序分配空间的四种分配方式
    内部碎片、外部碎片
    函数调用过程栈帧变化详解
  • 原文地址:https://www.cnblogs.com/dd110343/p/14310159.html
Copyright © 2011-2022 走看看