从Hadoop MapReduce到Spark - 走看看

zoukankan html css js c++ java

从Hadoop MapReduce到Spark

回顾MapReduce的计算过程

Spark对比MapReduce

Spark是借鉴了MapReduce的思想并在其基础上发展起来的，继承了其分布式计算的优点并改进其缺陷，但两者也有不少的差异如下：

1.spark更快，spark把运行的之间数据存放在内存，迭代计算效率高；mapreduce的之间结果需要落地，保存到磁盘，会产生大量IO操作，影响性能。

2.spark容错性高，通过弹性分布式数据集RDD来实现高效容错，某一部分丢失或出错，可通过计算流程的血缘关系来重建；而mapreduce只能重新计算，成本较高。

3.spark更加通用，提高了丰富的算子（如Transformation和Action），还有流计算Streaming和图计算GraphX等；而mapreduce只有map和reduce两种操作，并不是所有的问题都可以简单地分成map和reduce两步模型来处理。

4.spark采用的是多线程，任务都在一个进程中有利于内存共享，但容易产生资源竞争，难以细粒度地控制资源占用；mapreduce是多进程，进程启动时间要比线程慢，时效不高，但比spark更稳定，值适合批处理操作。

最终总结：

spark生态更为丰富，功能更强大，性能更佳，使用范围广；mapreduce更简单，稳定性好，适合长期后台运行，适合离线海量数据（挖掘）处理。

查看全文

相关阅读:
Silverlight工具荟萃
 微软WindowsPhone7份额已经超过了Symbian
WPF性能优化经验总结和整理综合帖
 长期提供WindowsPhone7培训 & HTML5培训 & Silverlight培训 & WPF培训
 微软首推msnNOW服务网络社交化风暴愈演愈烈
 cppunit在vs2008下使用的环境搭建（下）
[转]ruby中gets 和 gets.chomp 区别
 大四中软实习笔记20130226
[转]Ruby中require、load和include区别
 大四中软实习笔记20130227

原文地址：https://www.cnblogs.com/liujian-8492/p/9655155.html

Copyright © 2011-2022 走看看