大数据之 Spark - 走看看

zoukankan html css js c++ java

大数据之 Spark
1 渊源

　　于2009由Matei Zaharia创立了spark大数据处理和计算框架，基于内存，用scala编写。

2 部署

2.1 需要软件包下载路径见已有博文

　　Jdk ——因为运行环境为jvm

　　Python2.7

　　Scala2.10.4

　　Spark1.0.1

　　Hadoop stable version 如果搭建yarn的spark，需要部署yarn版本的hadoop

2.2 配置依赖
<groupId>org.apache.spark</groupId> <artifactId>spark-core_2.10</artifactId> <version>1.0.1</version>
<groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId>
2.3 在windows下的spark环境搭建

　　准备以上包

　　其中spark hadoop包为已经编译好的包，下载直接使用即可，但是需要配置到path中

3 核心概念

RDD 只读可分区的分布式数据集

4 变量配置

SPARK_HOME

PATH新增spark配置，PATH=$SPARK_HOME/bin:$PATH

spark/spark/conf/spark-env.sh

HADOOP_HOME HADOOP_CONF SPARK_CLASSPATH

log4j.properties设置控制台日志级别，设置第三方日志级别，设置sparksql相关配置

5 启动集群

spark/spark/sbin/start-all.sh

6 扩展

华为FusionInsight大数据平台

YARN 即Hadoop 2 ，他是一个与hadoop关联的集群计算和资源调度框架。

HBase

Kerberos认证

Sparksql 提供了类sql查询，返回spark-dataframe的数据结构
查看全文

相关阅读:
进程池的回调函数
 进程通信(multiprocessing.Queue)
自动化批量管理工具salt-ssh
自动化批量管理工具pssh
Saltstack自动化操作记录（2）-配置使用
 Saltstack自动化操作记录（1）-环境部署
 RocketMQ 简单梳理及集群部署笔记
 CentOS7下单机部署RabbltMQ环境的操作记录
 centos6下ActiveMQ+Zookeeper消息中间件集群部署记录
 [Centos6.9下RabbitMQ集群部署记录]

原文地址：https://www.cnblogs.com/guobm/p/10102790.html

Copyright © 2011-2022 走看看