[杂谈]重新认识RDD

zoukankan html css js c++ java

[杂谈]重新认识RDD
在spark中，怎么强调RDD都不为过，很多资料把RDD的第一个单词翻译成弹性，我觉得这个翻译偏离本意太严重了
- RDD，能够快速恢复的分布式式内存数据集；为什么是内存数据集? 因为spark是为更高效的迭代计算而设计的，相比其它的计算框架比如mr，spark大尺度地利用了集群的内存(数据一旦落盘，就需要序列化，磁盘io, 甚至网络io，性能就低了)
- 因为是内存数据集，RDD的容错性设计不能基于副本(内存多宝贵啊，哪经得起副本这种败家玩法；而且如果使用副本技术，需要把同一个副本的数据存放到不同的机器的内存，这个会发生很大的网络io)，而是基于lineage。这个和mr有很大差别。
- RDD需要在计算过程中提供容错能力，海量数据集的快速恢复是必备能力。RDD不能像RMDB使用像redo,undo这种细粒度的方式来提供恢复能力。为什么？
- 如果RDD使用细粒度的方式，它需要建立内存共享(share memory)的机制，需要做大量的内存加锁，线程/进程同步的工作，可想而知，效率会很低。
- RDD使用的是粗粒度的容错性：先通过transformation建立逻辑上的lineage。如果需要容错，可以通过lineaga重新计算一遍transforamtion来构造RDD，大部分场景中，这个过程要远比从磁盘重新load数据进内存快得多。
- 这种方式，可以避免对RDD加锁，避免实现分布式锁和分布式同步，性能会更高，但是必须要求RDD“不可变”。
- 当然，spark也为RDD提供了缓存的能力，避免重新计算，尤其对复杂低效的计算，比如shuffle。总之，这种方式，简单粗暴，能快速恢复但消耗内存。
快速恢复是RDD特性，这也是Resilient这个单词的本意呀。
查看全文

相关阅读:
Did not find handler method for springMVC资源文件扫描不到---关于spring的那些坑
 mysql中OPTIMIZE TABLE的作用
 Linux环境下apache性能测试工具ab使用详解
 sqlite数据库 adb 从配置到查询表中数据全过程-----献给初学的自己
 c3p0参数解释
 linux下如何启动/停止/重启mysql：
[MySQL] 变量（参数）的查看和设置
 mysql运行参数详解
 单例模式理解，简单通透
 this的一些场景

原文地址：https://www.cnblogs.com/ivanny/p/look_into_rdd.html

[杂谈]重新认识RDD

在spark中，怎么强调RDD都不为过，很多资料把RDD的第一个单词翻译成弹性，我觉得这个翻译偏离本意太严重了