zoukankan      html  css  js  c++  java
  • Spark和MR的区别

    自己总结

    • MR是基于进程,spark是基于线程
    • Spark的多个task跑在同一个进程上,这个进程会伴随spark应用程序的整个生命周期,即使没有作业进行,进程也是存在的
    • MR的每一个task都是一个进程,当task完成时,进程也会结束
    • 所以,spark比MR快的原因也在这,MR启动就需要申请资源,用完就销毁,但是spark把进程拿到以后,这个进程会一直存在,即使没有job在跑,所以后边的job可以直接启动,不需要再重新申请资源
    • 速度

    spark把运算的中间数据存放在内存,迭代计算效率更高;MR的中间结果需要落地,需要保存到磁盘,这样必然会有磁盘IO操作,影响性能

    • 容错性

    spark容错性高,它通过弹性分布式数据集RDD来实现高效容错,RDD是一组分布式的存储在节点内存中的只读性质的数据集,这些集合石弹性的,某一部分丢失或者出错,可以通过整个数据集的计算流程的血缘关系来实现重建;MR的话容错可能只能重新计算了,成本较高

    •  适用面

    spark更加通用,spark提供了transformation和action这两大类的多个功能的api,另外还有流式处理sparkstreaming模块,图计算GraphX等;MR只提供了map和reduce两种操作,流计算以及其他模块的支持比较缺乏

    • 框架和生态

     Spark框架和生态更为复杂,首先由RDD、血缘lineage、执行时的有向无环图DAG、stage划分等等,

    很多时候spark作业都需要根据不同的业务场景的需要进行调优,以达到性能要求,MR框架及其生态相对较为简单,对性能的要求也相对较弱,但是运行较为稳定,适合长期后台运行

    • 运行环境:

    MR运行在YARN上,

    spark

    1. local:本地运行
    2. standalone:使用Spark自带的资源管理框架,运行spark的应用
    3. yarn:将spark应用类似mr一样,提交到yarn上运行
    4. mesos:类似yarn的一种资源管理框架

     参考博客

    原文:https://blog.csdn.net/zx8167107/article/details/79086864

  • 相关阅读:
    2020/4/15
    2020/4/14
    2020/4/13
    2020/4/12
    2020/4/11
    2020/4/9
    PTA录入数据库题目流程
    PTA录题
    2020/4/8
    如何把mysql workbench的数据结构和数据导出到sql表中
  • 原文地址:https://www.cnblogs.com/xuziyu/p/11046414.html
Copyright © 2011-2022 走看看