spark RDD的缓存和检查点不同使用场景和工作机制 -- （视频笔记） - 走看看

zoukankan html css js c++ java

spark RDD的缓存和检查点不同使用场景和工作机制 -- （视频笔记）

1、缓存

persist =>storage level

对运算中间数据持久化。

对数据缓存了，就会重用。

使用场景：步骤1=>步骤2=>【步骤3.1、步骤3.2】就需要在步骤2进行缓存；每个分片都会进行缓存；有缓存就会有丢失，分片有可能丢失，会造成数据不完整，根据RDD的依赖机制，丢失的会从前边的步骤重新计算得来。

缓存场景

1、获取大量数据之后，例如：从日志文件获取了数据后，因为重新获取文件成本较高

2、经过了较长的链条计算后，重新在计算成本太高

3、单个步骤非常消耗资源：这样在这个资源后进行缓存

checkpoint

可以设置 checkpoint directory

4、checkpoint之前一般会进行缓存，checkpoint会改变RDD的依赖关系，RDD变成checkpoint RDD后，前边的所有RDD都会被移除，因为RDD的lazy，因此至少一次action之后才可以触发checkpoint。

5、引入checkpoint主要是为了避免缓存丢失造成的重新计算带来的资源消耗。

checkpoint是具体action之后，重新创建一个job来完成计算，checkpoint会产生一个新的job

6、checkpoint比缓存更可靠。

查看全文

相关阅读:
4.23上机练习
 4.17java作业
 4.16java作业
 leetcode 189
leetcode 172
leetcode 171
leetcode 169
win10内网外网智能访问
 leetcode 168
leetcode 165

原文地址：https://www.cnblogs.com/isenhome/p/5085666.html

热门文章
java第七周课上练习
 java第六周作业
 java第六周上机练习
 5.22作业
 5.21上机作业
 5.15作业
 5.14上机作业
 5.7上机作业
 4.30上机作业
 4.24java作业

Copyright © 2011-2022 走看看