zoukankan      html  css  js  c++  java
  • Spark生态圈概述

    Spark是一个快速且通用的集群计算平台

    1、Spark概述及特点

    1) Speed: 速度。执行速度快,开发速度提高了很多。

           Spark扩充了流行的MapReduce计算模型

      Spark是基于内存的计算。

    2) Ease of User: 易用。支持多种语言,如Python,Java,Scala等

    3) Generality: 通用性,解决多个框架学习成本和运维成本

    4) Run Everywhere: 运行在很多地方

    2、Spark产生背景

    1 ) MapReduce局限性,使用过程繁琐。

          A、代码繁琐

          B、只能支持map和reduce方法

      C、执行效率低下

      D、不适合迭代多次、交互式、流式的处理

    2) 框架的多样化

      A、批处理(离线): MapReduce、Hive、Pig

      B、流式处理(实时): Storm,JStorm

      C、交互式计算:Impala

    学习、运维成本无形中都提高了很多。

    3、Spark发展历史

    4、Spark生态圈

     Related  External Project: 灰色为外部工程。

    5、Spark的组件

    1) Spark Core:

      包含Spark的基本功能,包含任务调度,内存管理,容错机制等

      内部定义了RDDs(弹性分布式数据集)

      提供了很多APIs来创建和操作这些RDDs

      应用场景,为其他组件提供底层的服务

    2) Spark SQL:

       是Spark处理结构化数据的库,就像Hive SQL,Mysql一样

      应用场景,企业中用来做报表统计

    3) Spark Streaming:

      是实时数据流处理组件,类似Storm

      Spark Streaming提供了API来操作实时流数据

      应用场景,企业中用来从Kafka接收数据做实时统计

    4) MLlib:

           一个包含通用机器学习功能的包,Machine learning lib

           包含分类,聚类,回归等,还包括模型评估和数据导入。

      MLlib提供的上面这些方法,都支持集群上的横向扩展。

      应用场景,机器学习。

    5) Graphx:

      是处理图的库(例如,社交网络图),并进行图的并行计算。

      像Spark Streaming,Spark SQL一样,它也继承了RDD API。

      它提供了各种图的操作,和常用的图算法,例如PangeRank算法。

      应用场景,图计算。

    6) Cluster Managers:

      就是集群管理,Spark自带一个集群管理是单独调度器。

      常见集群管理包括Hadoop YARN,Apache Mesos

    6、Hadoop生态圈对比Spark BDAS

    7、Hadoop与Spark对比

    8、MapReduce与Spark对比

    9、Spark和Hadoop的协作性

    作者:Work Hard Work Smart
    出处:http://www.cnblogs.com/linlf03/
    欢迎任何形式的转载,未经作者同意,请保留此段声明!

  • 相关阅读:
    对象遍历 for in ,数组遍历for in 与 for of 的区别
    计算一个数组中key值相同的数量
    VUE的两种跳转push和replace对比区别
    微信公众号二次分享ios分享失败问题
    获得对象中的键或值
    第一个table根据checkbox选择tr,在另一个table中显示对应索引的tr(jq遍历的运用)
    checkbox 全选反选 获得所有的checkbox
    为什么jQuery要return this.each()?
    用jq代码写出一个轮播图。
    页面滚动到一定位置,两个div 朝中间运动。
  • 原文地址:https://www.cnblogs.com/linlf03/p/14358805.html
Copyright © 2011-2022 走看看