zoukankan      html  css  js  c++  java
  • 深入探究Spark -- 基本组成

    DAG:Directed Acyclic Graph,有向无环图
    RDD:Resilient Distributed Dataset 弹性分布式数据集,一种分布式的内存抽象,将工作集缓存到内存中,实现了复用。
     
    用户使用交互接口(Driver)与Spark集群的Cluster Manager进行交互,CM进行调度和资源管理。管理的是Worker Node(包括Executor、Task、Cache)
     
     
    Spark Streaming将流式计算分解成短小的批处理作业。
     
     
    MLlib实现了许多算法,包括分类、回归、聚类、协同过滤、降维等
     
    Spark SQL 提供与外部数据源便捷的访问,交互式的查询
     
    GraphX ETL、试探性分析、迭代式的图计算
  • 相关阅读:
    2021/6/28
    2021/6/25
    IDEA快捷键
    maven的一些问题
    Maven安装
    2021/6/14
    nmcli 网络管理工具
    linux yum仓库配置
    linux 防火墙selinux ,firewalld, iptables
    linux root密码重置
  • 原文地址:https://www.cnblogs.com/kinghey-java-ljx/p/8516927.html
Copyright © 2011-2022 走看看