Spark和Hadoop的联系和区别

zoukankan html css js c++ java

Spark和Hadoop的联系和区别

首先我们来看看Hadoop的相关简短回顾：

　　1. Hadoop是由Java语言编写，在分布式集群上存储海量数据并运行分布式分析应用框架

　　2. HDFS为其存储数据的分布式文件系统

　　3. 分布式计算框架为MapReduce

　　4. HBase一个基于HDFS的分布式非关系型数据库

　　5. Yarn作为分布式资源调度框架

再来看看Spark：

　　1. 开发语言为 Scala

　　2. 基础于核心 == Spark Core

　　3. Spark SQL 用来操作结构化数据的组件。可以通过使用 SQL 语言来查询数据

　　4. Spark Streaming 针对实时数据进行流式计算的组件

　　5. 还有 Spark MLlib 和 Spark Graphx 分别是机器学习算法库、面向图计算提供的框架与算法库

选择 Spark 还是选 Hadoop（MR）？？？

　　· Spark在MR的基础上，进行了计算过程的优化，利用其RDD计算模型（适合并行计算和重复使用）

　　· Hadoop基于磁盘进行数据通信，而Spark多个作业之间的通信是基于内存

　　· Spark Task 启动时间快，采用的是fork线程的方式；而Hadoop采用创建新的进程的方式

　　· Spark只有在shuffle 的时候将数据写到磁盘（进行磁盘IO），而Hadoop多个MR之间的胡数据交互都要依赖于磁盘交互

　　· Spark 的缓存机制比 HDFS的缓存机制　更为高效（Spark中的 cache ＆ checkpoint）

由于Spark基于内存, 所以在实际环境中, 会受内存限制

Spark 相比于 MR更有优势但是不能完全替代 MR

查看全文

相关阅读:
安装vmware tools 使用hgfs共享文件一波三折
 RedHat停止sendmail加快启动
 [宏]_IO, _IOR, _IOW, _IOWR 宏的用法与解析
 __VA_ARGS__
超级终端串口发送命令，uboot接收不到
 statfs函数获取大容量磁盘信息速度慢的解决过程
 ctags使用简介
 做技术多久才能入门
 linux目录和文件介绍
 OpenScalesLayer

原文地址：https://www.cnblogs.com/joey-413/p/14085970.html