zoukankan      html  css  js  c++  java
  • Spark和MapReduce(MR)的区别

    首先Spark是借鉴了mapreduce并在其基础上发展起来的,继承了其分布式计算的优点并改进了mapreduce明显的缺陷,但是二者也有不少的差异具体如下:

    • MR是基于进程,spark是基于线程
    • Spark的多个task跑在同一个进程上,这个进程会伴随spark应用程序的整个生命周期,即使没有作业进行,进程也是存在的
    • MR的每一个task都是一个进程,当task完成时,进程也会结束
    • 所以,spark比MR快的原因也在这,MR启动就需要申请资源,用完就销毁,但是spark把进程拿到以后,这个进程会一直存在,即使没有job在跑,所以后边的job可以直接启动,不需要再重新申请资源

    1、速度

    spark把运算的中间数据存放在内存,迭代计算效率更高;mapreduce的中间结果需要落地,需要保存到磁盘,这样必然会有磁盘io操做,影响性能。

    2、容错性

    spark容错性高,它通过弹性分布式数据集RDD来实现高效容错,RDD是一组分布式的存储在节点内存中的只读性质的数据集,这些集合是弹性的,某一部分丢失或者出错,可以通过整个数据集的计算流程的血缘关系来实现重建;mapreduce的话容错可能只能重新计算了,成本较高。

     3、适用面

    spark更加通用,spark提供了transformation和action这两大类的多个功能api,另外还有流式处理sparkstreaming模块、图计算GraphX等等;mapreduce只提供了map和reduce两种操作,流计算以及其他

    模块的支持比较缺乏。 

    4、框架和生态

    spark框架和生态更为复杂,首先有RDD、血缘lineage、执行时的有向无环图DAG、stage划分等等,很多时候spark作业都需要根据不同业务场景的需要进行调优已达到性能要求;mapreduce框架及其生态相对较为简单,对性能的要求也相对较弱,但是运行较为稳定,适合长期后台运行。

    5、运行环境

    MR运行在YARN上;

    spark

    (1) local:本地运行

    (2) standalone:使用Spark自带的资源管理框架,运行spark的应用

    (3) yarn:将spark应用类似mr一样,提交到yarn上运行

    (4) mesos:类似yarn的一种资源管理框架

     总结,spark生态更为丰富,功能更为强大、性能更佳,适用范围更广;mapreduce更简单、稳定性好、适合离线海量数据挖掘计算。

    参考博客:https://www.cnblogs.com/xuziyu/p/11046414.html

  • 相关阅读:
    App如何选择移动广告平台,开发者2
    mouseover与mouseenter与mousemove差额mouseout与mouseleave差额
    JFinal 的源代码超具体的分析DB+ActiveRecord
    Vim经常使用技巧总结1
    2015第4周四网摘
    Java任务调度
    2015第4周二网摘
    2015第4周一
    2015第三周日
    转SpringSided代码规范遵循
  • 原文地址:https://www.cnblogs.com/USTC-ZCC/p/13297747.html
Copyright © 2011-2022 走看看