Spark简介

zoukankan html css js c++ java

Spark简介
Spark简介

Spark是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。
- HomePage：http://spark.apache.org/
- GitHub：https://github.com/apache/spark
主要特点
- 运行速度快：DAG（Directed Acyclic Graph，有向无环图）执行引擎
- 容易使用：多语言编程支持；提供简洁的API；Spark shell实时交互式编程反馈
- 通用性：技术栈完整，包括SQL查询、流式计算、机器学习和图算法组件
- 运行模式多样：可运行在Hadoop、独立的集群模式、云环境中，并可访问HDFS、Cassandra、HBase、Hive等多种数据源
对比Hadoop

Hadoop的MapReduce计算模型延迟过高，磁盘IO开销大，无法胜任实时快速计算的需求，因而只适用于离线批处理的应用场景。
相比于MapReduce，Spark主要具有如下优点：
- Spark的计算模式也属于MapReduce，但不局限于Map和Reduce操作，还提供了多种数据集操作类型，编程模型比MapReduce更灵活；
- Spark提供了内存计算，中间结果直接放到内存中，带来了更高的迭代运算效率，减少了IO开销；
- Spark基于DAG的任务调度执行机制，要优于MapReduce的迭代执行机制。
但Spark并不能完全替代Hadoop，主要用于替代Hadoop中的MapReduce计算模型。
Hadoop可以使用廉价的、异构的机器来做分布式存储与计算，而Spark对内存与CPU有一定的要求。
Spark可以借助于YARN实现资源调度管理，借助于HDFS实现分布式存储。

Spark生态系统

在实际应用中，大数据处理主要包括以下三个类型：
- 复杂的批量数据处理：时间跨度通常在数十分钟到数小时之间；--- Hadoop MapReduce
- 基于历史数据的交互式查询：时间跨度通常在数十秒到数分钟之间；--- Impala、Hive
- 基于实时数据流的数据处理：时间跨度通常在数百毫秒到数秒之间。--- 流计算框架Storm
Spark满足不同应用场景：
- Spark可以部署在资源管理器YARN之上，同时支持批处理、交互式查询和流数据处理。
- Spark生态系统兼容Hadoop生态系统，现有Hadoop应用程序可以容易地迁移到Spark系统中。
Spark生态系统主要组件
- Spark Core：通常所说的Apache Spark，包含Spark的基本功能；
- Spark SQL：使用SQL命令进行查询，并进行更复杂的数据分析；
- Spark Streaming：支持高吞吐量、可容错处理的实时流数据处理；
- MLlib（机器学习）：常用机器学习算法的实现；
- GraphX（图计算）：用于图计算的API；
查看全文

相关阅读:
漫步温泉大道有感
 不可多得的”魔戒“：一堂成功学大师们的浓缩课
 四川新闻网关于IT诗人的报道
 赠徐蕴筝(帮别人名字作诗)
再游草堂
 赠申芳菲（帮别人名字作诗）
Oracle内部错误:ORA00600[15801], [1]一例
 Oracle内部错误:ORA00600[OSDEP_INTERNAL]一例
 Oracle O立方服务平台(O3SP)
Oracle RAC内部错误:ORA00600[keltnfyldmInit]一例

原文地址：https://www.cnblogs.com/anliven/p/6066049.html

Spark简介

主要特点

对比Hadoop

Spark生态系统

Spark生态系统主要组件