zoukankan      html  css  js  c++  java
  • 基础编程

    在 Spark 中创建 RDD 的创建方式可以分为四种:
    1) 从集合(内存)中创建 RDD
    从集合中创建 RDD,Spark 主要提供了两个方法:parallelize 和 makeRDD
    val sparkConf =
    new SparkConf().setMaster("local[*]").setAppName("spark")
    val sparkContext = new SparkContext(sparkConf)
    val rdd1 = sparkContext.parallelize(
    List(1,2,3,4)
    )
    val rdd2 = sparkContext.makeRDD(
    List(1,2,3,4)
    )
    rdd1.collect().foreach(println)
    rdd2.collect().foreach(println)
    sparkContext.stop()
     
    从外部存储(文件)创建 RDD
    由外部存储系统的数据集创建 RDD 包括:本地的文件系统,所有 Hadoop 支持的数据集,
    比如 HDFS、HBase 等。
    val sparkConf =
    new SparkConf().setMaster("local[*]").setAppName("spark")
    val sparkContext = new SparkContext(sparkConf)
    val fileRDD: RDD[String] = sparkContext.textFile("input")
    fileRDD.collect().foreach(println)
    sparkContext.stop()
    3) 从其他 RDD 创建
    主要是通过一个 RDD 运算完后,再产生新的 RDD。详情请参考后续章节
    4) 直接创建 RDD(new)
    使用 new 的方式直接构造 RDD,一般由 Spark 框架自身使用。
  • 相关阅读:
    ACM进阶计划
    《算法竞赛入门经典》习题——Chapter 3
    js运算符
    Javascript的数据类型简述
    JS事件处理和事件对象
    对一道代码的看法
    SOA不是Web Service
    梳理一下最近要重点好学的东西
    ReportViewer使用手册
    Lesson 9
  • 原文地址:https://www.cnblogs.com/huaobin/p/15677291.html
Copyright © 2011-2022 走看看