0、参考自http://tech.uc.cn/?p=2116
http://www.csdn.net/article/2013-07-08/2816149
1、Spark是一个高效的分布式计算系统。它基于MapReduce(MR)算法实现分布式计算,但Job的中间输出和结果可以保存在内存,从而不需要读写HDFS,因此能够更好地适用于数据挖掘(DM)和机器学习(ML)等需要迭代的MR的算法。
此外,Spark提供多种类型的数据集操作(如Transformations操作:map、filter、sample等,Actions操作:count、collect、reduce等),而不只是Hadoop的Map和Reduce,各个处理节点之间的通信模型也不再像Hadoop那样就是唯一的Data Shuffle一种模式。
不过由于RDD的特性,Spark不适用于那种异步细粒度更新状态(增量修改)的应用,如web服务的存储或增量的web爬虫和索引。
Spark通过提供丰富的Scala、Java、Python API及交互式Shell来提高可用性。