Spark 基本概念 & 安装

zoukankan html css js c++ java

Spark 基本概念 & 安装
1. Spark 基本概念

　　1.0 官网

　　传送门

　　1.1 简介

　　Spark 是用于大规模数据处理的快如闪电的统一分析引擎。

　　1.2 速度

　　Spark 可以获得更高的性能，针对 batch 计算和流计算都可以。

　　用到了 DAG scheduler (有向无环图调度器)、查询优化器、物理执行引擎

　　同 Hadoop 进行逻辑回归测试，Spark 速度超过 Hadoop 100x 倍。

　　

　　1.3 易用性

　　Spark 提供了 80+ 个高级算子，可以轻松构建并行 app

　　支持多种语言，Java、Scala、Python、R 和 SQL shell
　　

　　1.4 通用性

　　Spark 有5大模块，Core 、SQL 、Streaming 、MLlib 、GraphX
　　可以对 SQL 和 Streaming 以及复杂分析进行组合应用。

　　

　　1.5 执行场景
　　spark可以运行在 Hadoop 、Mesos 、standalone 、云上。
　　可以访问多种数据源。

　　

2. 安装 Spark

　　2.1 解压
tar -xzvf spark-2.1.0-bin-hadoop2.7.tgz -C /soft/
　　2.2 创建符号链接
ln -s /soft/spark-2.1.0-bin-hadoop2.7 /soft/spark
　　2.3 配置环境变量
# 编辑环境变量配置文件
sudo vi /etc/profile

# spark 环境变量 export SPARK_HOME=/soft/spark export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH
　　2.4 生效环境变量
source /etc/profile
　　2.5 启动 spark shell

　　【启动前提】
# 启动 ZooKeeper 集群 xzk.sh start # 启动 HDFS start-dfs.sh # 启动 Spark 服务，在 spark/sbin 目录下执行 ./start-all.sh
　　【启动】
[centos@s101 /soft/spark/bin]$ spark-shell
　　
且将新火试新茶，诗酒趁年华。
查看全文

相关阅读:
ElasticSearch（十二）：Spring Data ElasticSearch 的使用（二）
ElasticSearch（十）：Elasticsearch集群配置
 Linux下设置postgresql数据库开机启动
 PostgreSQL分区表实现——pg_pathman安装、配置
 Postgresql日志配置
 Linux CentOS 7 安装PostgreSQL 9.5.17 （源码编译）
Docker（5）：Docker镜像基本操作（上）
数学建模之路----遗传算法
 MATBLAB学习笔记----基础绘图
 ffmpeg音频视频转格式工具使用

原文地址：https://www.cnblogs.com/share23/p/9755209.html

Spark 基本概念 & 安装

1. Spark 基本概念

2. 安装 Spark