zoukankan      html  css  js  c++  java
  • Spark 核心编程

    Spark 计算框架为了能够进行高并发和高吞吐的数据处理,封装了三大数据结构,用于
    处理不同的应用场景。三大数据结构分别是:
    ➢ RDD : 弹性分布式数据集
    ➢ 累加器:分布式共享只写变量
    ➢ 广播变量:分布式共享只读变
     
    RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据
    处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行
    计算的集合。
    ➢ 弹性
    ⚫ 存储的弹性:内存与磁盘的自动切换;
    ⚫ 容错的弹性:数据丢失可以自动恢复;
    ⚫ 计算的弹性:计算出错重试机制;
    ⚫ 分片的弹性:可根据需要重新分片。
    ➢ 分布式:数据存储在大数据集群不同节点上
    ➢ 数据集:RDD 封装了计算逻辑,并不保存数据
    ➢ 数据抽象:RDD 是一个抽象类,需要子类具体实现
    ➢ 不可变:RDD 封装了计算逻辑,是不可以改变的,想要改变,只能产生新的 RDD,在
    新的 RDD 里面封装计算逻辑
    ➢ 可分区、并行计算
  • 相关阅读:
    WebSphere--安全性
    WebSphere--会话跟踪
    WebSphere--用户简要表
    WebSphere--连接管理器
    WebSphere--部署Servlet
    WebSphere--定制配置
    WebSphere--安装与配置
    WebSphere--基本特性
    六、Html头部和元信息
    五、Html表单标签
  • 原文地址:https://www.cnblogs.com/huaobin/p/15677257.html
Copyright © 2011-2022 走看看