Spark的数据存储（十九） - 走看看

zoukankan html css js c++ java

Spark的数据存储（十九）

　　Spark本身是基于内存计算的架构，数据的存储也主要分为内存和磁盘两个路径。Spark本身则根据存储位置、是否可序列化和副本数目这几个要素将数据存储分为多种存储级别。此外还可选择使用Tachyon来管理内存数据。

　　为了适应迭代计算，Spark将经常被重要的数据缓存到内存中以提升数据读取速度，当内存容量有限时，则将数据存入磁盘中或根据最近最少使用页面置换算法将内存中使用频率较低的文件空间收回，从而让新的数据进来。

　　Tachyon的出现主要是为了解决3个问题而设计。一是多应用数据共享问题，二是JVM缓存数据丢失问题，三是GC开销问题。Tachyon将过去的Spark中的计算和内存管理两个部分分离，专门使用Tachyon在JVM堆外管理Spark计算所需要的数据，极大地减轻了Spark管理上的负担和JVM内存负担。这种设计思路能很好地解决以上3个问题并提升了程序运行的稳定性和速度。

　　

查看全文

相关阅读:
线性单链表动态内存分配(C语言实现)
线性顺序表动态内存分配(C语言实现)
Linux-v01天-课堂笔记
 博客园之自定义博客(美化+播放器)
递归练习
 算法基础练习-_06 二进制小数
 算法基础练习-_05将整数的奇偶位互换
 算法基础练习-_03 1的个数
 算法基础练习-_01找出唯一成对的数
 常用算法之快速排序

原文地址：https://www.cnblogs.com/zlslch/p/6185659.html

Copyright © 2011-2022 走看看