1.1 Spark是什么?
Spark是一个用来实现快速而通用的集群计算的平台。
1.2 一个大一统的软件栈
Spark项目包含多个紧密集成的组件。
1.2.1 Spark Core
Spark Core实现了Spark的基本功能, 包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对RDD的API定义。RDD表示分布在多个计算节点上可以并行操作的元素集合,是Spark主要的变成抽象。
1.2.2 Spark SQL
Spark SQL是Spark用来操作结构化数据的程序包。
1.2.3 Spark Streaming
Spark Streaming是Spark提供的对实时数据进行流式计算的组件。
1.2.4 MLlib
MLlib是一个提供常见的机器学习功能的程序库。
1.2.5 GraphX
GraphX是用来操作图的程序库,可以进行并行的图计算。
1.2.6 集群管理器
Spark支持在各种集群管理器上运行。
1.3 Spark的用户和用途
两大目标群体: 数据科学家的工程师
两大用途: 数据科学应用和数据处理应用
1.4 Spark简史
略
1.5 Spark的版本和发布
略
1.6 Spark的存储层次
Spark不仅可以将任何Hadoop分布式文件系统(HDFS)上的文件读取为分布式数据集,也可以支持其他支持Hadoop接口的系统。