zoukankan html css js c++ java

day23-RDD相关

从集合（内存）中创建 RDD

val sparkConf =
 new SparkConf().setMaster("local[*]").setAppName("spark")
val sparkContext = new SparkContext(sparkConf)
val rdd1 = sparkContext.parallelize(
 List(1,2,3,4)
)
val rdd2 = sparkContext.makeRDD(
 List(1,2,3,4)
)
rdd1.collect().foreach(println)
rdd2.collect().foreach(println)
sparkContext.stop()

从底层代码实现来讲，makeRDD 方法其实就是 parallelize 方法


def makeRDD[T: ClassTag](
 seq: Seq[T],
 numSlices: Int = defaultParallelism): RDD[T] = withScope {
 parallelize(seq, numSlices)
}

从外部存储（文件）创建 RDD

由外部存储系统的数据集创建 RDD 包括：本地的文件系统，所有 Hadoop 支持的数据集，
比如 HDFS、HBase 等。


val sparkConf =
 new SparkConf().setMaster("local[*]").setAppName("spark")
val sparkContext = new SparkContext(sparkConf)
val fileRDD: RDD[String] = sparkContext.textFile("input")
fileRDD.collect().foreach(println)
sparkContext.stop()

查看全文

相关阅读:
自定义异常处理
 遍历目录
 快速排序
 Map<String,String>转换json字符串
 Sublime Text 3破解
 替换字符串
 Moss2007迁移步骤
 Sharepoint 2010 定时提醒
 Sharepoint 2010 显示详细错误
 Sharepoint 2010 安装完Micrsoft sharepoint 2010 service pack 1后网站主页报错

原文地址：https://www.cnblogs.com/wuren-best/p/14464333.html