3.1 Spark概述 - 走看看

zoukankan html css js c++ java

3.1 Spark概述

一、Spark简介

1.Spark的特点

特点1：运行速度快（内存计算，循环数据流、有向无环图设计机制）

把所有针对数据集的操作转换成一张有向无环图，整个执行引擎调度都是基于这个有向无环图，对这个有向无环图的后期操作，会进行拆分，分成不同的阶段，每一阶段分成不同的任务，再去分发到不同的机器上去执行。

它可以采用特定的方式对它整个里面执行的过程进行优化，比如流水线优化

特点2：容易使用，Scala可通过spark Shell进行交互式编程

特点3：通用性（完整的解决方案，技术软件栈）

特点4：运行模式多样

2.Spark与Hadoop的对比

MapReduce的缺陷：

（1）表达能力有限

（2）磁盘开销大

（3）延迟高

（4）衔接的IO开销大

3.Spark的优点

（1）操作类型更多（表达能力更强）

（2）内存计算（运行速率提升，高效提高迭代运算）

（3）避免数据落地

数据不写入磁盘；

形成一个有向无环图，让有向无环图当中的一些操作之间形成流水线优化

二、Spark生态系统

1.为什么Spark要建立生态系统？

三种应用场景需求

Spark2.0之后新增了Structured Streaming组件，

Mahout现在是基于Spark的机器学习算法库

查看全文

相关阅读:
设置函数环境——setfenv（转）
全局变量声明的规范化（转）
利用__index和__newindex实现默认值表、监控表、只读表（转）
php中的$_GET怎样获取带有井号“#”的參数
 Servlet配置load-on-startup
LinQ—扩展方法
 CRT
[C++] 获取IE代理server的账号password
一步一步写算法（之hash表）
android之PackageManager简单介绍

原文地址：https://www.cnblogs.com/nxf-rabbit75/p/11764911.html

Copyright © 2011-2022 走看看