Spark 核心编程 - 走看看

zoukankan html css js c++ java

Spark 核心编程

Spark 计算框架为了能够进行高并发和高吞吐的数据处理，封装了三大数据结构，用于

处理不同的应用场景。三大数据结构分别是：

➢ RDD : 弹性分布式数据集

➢ 累加器：分布式共享只写变量

➢ 广播变量：分布式共享只读变

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是 Spark 中最基本的数据

处理模型。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行

计算的集合。

➢ 弹性

⚫ 存储的弹性：内存与磁盘的自动切换；

⚫ 容错的弹性：数据丢失可以自动恢复；

⚫ 计算的弹性：计算出错重试机制；

⚫ 分片的弹性：可根据需要重新分片。

➢ 分布式：数据存储在大数据集群不同节点上

➢ 数据集：RDD 封装了计算逻辑，并不保存数据

➢ 数据抽象：RDD 是一个抽象类，需要子类具体实现

➢ 不可变：RDD 封装了计算逻辑，是不可以改变的，想要改变，只能产生新的 RDD，在

新的 RDD 里面封装计算逻辑

➢ 可分区、并行计算

查看全文

相关阅读:
iphone精简教程
 自己搭建云盘 – 简单的PHP网盘程序
 内存泄漏(I)
App 基本图片配置(I)
Git 工作环境配置
 MVC(I)
ReactNative APP基本框架搭建基于 React Navigation
UI绘制原理及卡顿掉帧原因
 ES6中Json、String、Map、Object之间的转换
 Invariant Violation: requireNativeComponent: "RNCWKWebView" was not found in the UIManager.

原文地址：https://www.cnblogs.com/huaobin/p/15677257.html

Copyright © 2011-2022 走看看