[Spark RDD_1] RDD 基本概念

zoukankan html css js c++ java

[Spark RDD_1] RDD 基本概念
0. 说明

　　RDD 概述 && 创建 RDD 的方式 && RDD 编程 API（Transformation 和 Action Operations） && RDD 的依赖关系

1. RDD 概述

　　Spark 围绕弹性分布式数据集（RDD）的概念展开，RDD 是可以并行操作的容错的容错集合。

　　resilient distributed dataset，弹性分布式数据集。

　　不可变集合，可以进行并行操作的分区化数据集合。

　　该类包含了 RDD 常见操作，比如 map、filter、persist 等。

　　对于 key-value 的 RDD，会自动转换成（隐式转换）PairRDDFunction,该类提供了所有的 ByKey 操作。

　　内部，每个 RDD 主要含有 5 个主要属性：
1. 分区列表（轻量级数据集合，没有实际数据）
2. 计算每个切片的计算函数
3. 和其他RDD的依赖列表
4. 针对 K-V 类型 RDD，还有一个分区类(可选)
5. 计算每个切片的首选位置列表(可选)
2. 创建 RDD 的方式

　　创建 RDD 有两种方法

　　【方法一】

　　并行化驱动程序中的现有集合。

　　例子如下

　　【方法二】

　　引用外部存储系统中的数据集，例如共享文件系统，HDFS，HBase 或提供 Hadoop InputFormat 的任何数据源。

　　textFile() 方法最初创建的是 HadoopRDD，HadoopRDD 提供了读取 HDFS 文件核心功能。

　　sc.textFile()

　　产生了两个 RDD
　　HadoopRDD -> MapPartitionRDD

　　

3. RDD 编程 API（Transformation 和 Action Operations）

　　【变换 Transformation】

　　返回值为新的 RDD

　　map

　　flatMap

　　filter()

　　reduceByKey()

　　【动作 Actions】

　　返回值为具体的值

　　collect()
　　save()
　　reduce()
　　count()

4. RDD 的依赖关系

　　【依赖】

　　RDD 的依赖是 子 RDD 上的每个分区和父 RDD 分区数量上的对应关系
　　Dependency
　　　　|----ShuffleDependency　(宽依赖)
　　　　|----NarrowDependency （窄依赖：子 RDD 的每个分区依赖少量的父 RDD 分区）
　　　　　　|-----One2OneDependency （一对一依赖）
　　　　　　|-----RangeDependency（范围依赖）
　　　　　　|-----PruneDependency（Prune 依赖）

　　【说明】

　　构造 RDD 时使用的是 One2OneDependency
且将新火试新茶，诗酒趁年华。
查看全文

相关阅读:
旧梦重温
 树莓派改用中山大学软件源
 [翻译]lpeg入门教程
 为python-sproto添加map支持
 玩家回档原因分析
 为sproto添加python绑定
 如何快速编写Vim语法高亮文件
 windows调试器尝鲜
 休斯顿，我们遇到了一个问题
 糟糕的十一月

原文地址：https://www.cnblogs.com/share23/p/9769033.html

[Spark RDD_1] RDD 基本概念

0. 说明

1. RDD 概述

2. 创建 RDD 的方式

3. RDD 编程 API（Transformation 和 Action Operations）

4. RDD 的依赖关系