Spark工作原理及RDD

zoukankan html css js c++ java

Spark工作原理及RDD

1.基于内存
2.迭代式计算
3.分布式

基本工作原理：
将spark的程序提交到spark集群上，在Hadoop的HDFS或者Hive上读取数据，读取的数据存放在各个spark的节点上，分布式的存放在多个节点上，主要在每个节点的内存上，这样可以加快速度。
对节点的数据进行处理，处理后的数据存放在其他的节点的内存上。对数据的计算操作针对多个节点上的数据进行并行操作。处理之后的数据可以到hadoop或者mysql或hbase中，或者结果直接返回客户端。
每一批处理的数据就是一个RDD

spark开发：离线批处理，延迟性的交互式数据处理；SQL查询；实时查询。底层都是RDD和计算操作。
1.创建RDD
2.定义对RDD的计算操作
3.循环往复的过程，第一次计算之后，数据到了新的一批节点上，变成新的RDD，在进行计算操作。
4.获得最终的数据，将数据存储火哦返回给客户端。
spark与mapreduce的不同在于分布式处理，mapreduce里只有map和reduce两个
过程，spark在处理一个阶段之后可以继续处理很多个阶段，不止两个阶段，spark可以处理更多的数据

RDD（弹性分布式数据集）是spark提供的核心抽象
RDD在抽象上是一种元素集合，包含了数据，他是被分区的，分为多个分区，每个分区分布在集群中的不同节点上，从而让RDD中的数据
可以被并行操作。（分布式）
RDD数据默认情况下是放在内存中的，如果内存放不下的时候，就会将部分数据存放在磁盘上进行保存，对于用户来说都是透明的，不用管数据存放在哪里，只要进行数据的计算和操作即可。（弹性）
RDD具有容错性，当节点出现故障，数据会出现丢失，会自动进行计算，重新获取数据。

查看全文

相关阅读:
三元表达式列表和字典推导式函数对象名称空间作用域 global和nonlocal 函数装饰器枚举对象
 函数参数打散机制字符串比较返回值
 函数简介
 三种字符串的介绍文件的读写
 字符编码
 数据类型及其常用方法数据类型转换可变与不可变值拷贝与深浅拷贝
 流程控制 while和for循环
 变量命名规范常量输入和输出注释数据类型运算符逻辑运算符
 语言分类编译型和解释型语言分析环境变量代码执行的方式 pip介绍变量
 Python django tests

原文地址：https://www.cnblogs.com/zhang12345/p/12245210.html