zoukankan      html  css  js  c++  java
  • Spark

    1、Spark是什么

    Spark是一个高性能内存处理引擎,它提供了基于RDD的数据抽象,能够灵活处理分布式数据集

    2、Spark核心概念

    RDD:弹性分布式数据集,它是一个只读的、带分区的数据集合,并支持多种分布式算子。由下面5部分构成:

    • 一组partition
    • 每个partition的计算函数
    • 所依赖的RDD列表(即父RDD列表)
    • (可选的)对于key-value类型的RDD(每个元素是key-value对),则包含一个Partitioner(默认是HashPartitioner)。
    • (可选的)计算每个partition所倾向的节点位置(比如HDFS文件的存放位置)

    DAG:Spark是一个通用DAG引擎,这使得用户能够在一个应用程序中描述复杂的逻辑,以便于优化整个数据流(比如避免重复计算等),并让不同计算阶段直接通过本地磁盘或内存交换数据(而不是像MapReduce那样通过HDFS)

    3、Spark生态系统

    Spark Streaming:基于Spark Core实现的流式计算框架,其基本思想是将流式数据以时间为单位切割成较小的RDD,并启动一个应用程序处理单位时间内的RDD。简而言之,它将流式计算转化成微批处理(micro-batch),借助高效的Spark引擎进行快速计算

    Spark SQL:基于Spark实现的SQL引擎,能将SQL转换成Spark应用程序,提交到集群中运行

    MLLib:基于Spark实现的机器学习库,实现了常用的机器学习和数据挖掘算法,包括聚类算法、分类算法、推荐算法等

     GraphX:基于Spark实现的图计算框架,提供了通用的图存储模式和图计算模式。

  • 相关阅读:
    Qt 优雅的结束程序
    Qt QPainter实现按钮添加半透明图片
    Qt QTableModel联表显示
    C++ unique 里 类型为vector<vector<int>> 的比较函数
    用JavaScript实现的2048.
    Linux 脚本控制和计划任务
    Linux shell脚本分支循环函数笔记
    Linux shell脚本特殊符号笔记
    Linux shell脚本笔记
    Linux 内存磁盘管理命令笔记
  • 原文地址:https://www.cnblogs.com/yayazhang221/p/13256368.html
Copyright © 2011-2022 走看看