Spark学习之RDDs介绍 - 走看看

zoukankan html css js c++ java

Spark学习之RDDs介绍
什么是RDDS？

RDDS即Resilient distributed datasets（弹性分布式数据集）。
Spark中，所有计算都是通过RDDs的创建，转换，操作完成的。
一个RDD是一个不可改变的分布式集合对象。

Driver Program

包含程序的main方法，RDDs的定义和操作。
它管理很多节点，我们称之为excetor。

Spark Context

Driver Program是通过SparkContext对象访问spark。
SparkContext对象代表和一个集群的连接。
在Shell中SparkContext自动创建好了，就是sc。

分片

每个分片包含一部分数据，partitions可在集群的不同节点上计算。
分片是spark并行执行的单元，spark是顺序的，并行的处理分片。

RDDs的创建方法

1

把一个存在的集合传给Sprakcontext的parallelize（）方法，用于测试
```
var rdd = sc.parallelize(Array(1,2,2,4),4)
```
其中，第一个参数表示待并行化处理的集合，第二个参数：分片的个数。

2

加载外部数据集
```
val rddText = sc.textFile('helloSpark.txt')
```
查看全文

相关阅读:
正确解读free -m
linux命令总结之traceroute命令
 OSI七层模型详解
 Linux运维七：网络基础
 python contextlib 上下文管理器
 Django扩展自定义manage命令
 Elasticsearch分片、副本与路由(shard replica routing)
EsRejectedExecutionException排错与线程池类型
 python重试(指数退避算法)
Redis实现分布式锁

原文地址：https://www.cnblogs.com/twodoge/p/10015725.html

Copyright © 2011-2022 走看看