基础编程 - 走看看

zoukankan html css js c++ java

基础编程

在 Spark 中创建 RDD 的创建方式可以分为四种：

1) 从集合（内存）中创建 RDD

从集合中创建 RDD，Spark 主要提供了两个方法：parallelize 和 makeRDD

val sparkConf =

new SparkConf().setMaster("local[*]").setAppName("spark")

val sparkContext = new SparkContext(sparkConf)

val rdd1 = sparkContext.parallelize(

List(1,2,3,4)

)

val rdd2 = sparkContext.makeRDD(

List(1,2,3,4)

)

rdd1.collect().foreach(println)

rdd2.collect().foreach(println)

sparkContext.stop()

从外部存储（文件）创建 RDD

由外部存储系统的数据集创建 RDD 包括：本地的文件系统，所有 Hadoop 支持的数据集，

比如 HDFS、HBase 等。

val sparkConf =

new SparkConf().setMaster("local[*]").setAppName("spark")

val sparkContext = new SparkContext(sparkConf)

val fileRDD: RDD[String] = sparkContext.textFile("input")

fileRDD.collect().foreach(println)

sparkContext.stop()

3) 从其他 RDD 创建

主要是通过一个 RDD 运算完后，再产生新的 RDD。详情请参考后续章节

4) 直接创建 RDD（new）

使用 new 的方式直接构造 RDD，一般由 Spark 框架自身使用。

查看全文

相关阅读:
Linux基础命令-cd
grep和egrep正则表达式
 SpringMVC源码阅读-一个请求主要处理流程DispatcherServlet(四)
SpringMVC源码阅读-dispatcher组件初始化过程(三)
SpringMVC源码阅读-Servlet WebApplicationContext初始化(二)
SpringMVC源码阅读-Root WebApplicationContext初始化(一)
logback源码阅读-配置文件解析过程(六)
logback源码阅读-Encoder(五)
logback源码阅读-Appender(四)
logback源码阅读-Logger日志生成(三)

原文地址：https://www.cnblogs.com/huaobin/p/15677291.html

Copyright © 2011-2022 走看看