关于CDH集群spark的三种安装方式简述

zoukankan html css js c++ java

关于CDH集群spark的三种安装方式简述

一、spark的命令行模式

   1.第一种进入方式：执行 pyspark进入，执行exit()退出

注意报错信息：java.lang.IllegalArgumentException: Required executor memory (1024+384 MB) is above the (最大阈值)max threshold (1024 MB) of this cluster!

表示执行器的内存(1024+384 MB) 大于最大阈值(1024 MB)

Please check the values of 'yarn.scheduler.maximum-allocation-mb' and/or 'yarn.nodemanager.resource.memory-mb'











2.初始化RDD的方法

本地内存中已经有一份序列数据(比如python的list)，可以通过sc.parallelize去初始化一个RDD。

当执行这个操作以后，list中的元素将被自动分块(partitioned)，并且把每一块送到集群上的不同机器上。

import pyspark

from pyspark import SparkContext as sc

from pyspark import SparkConf

conf=SparkConf().setAppName("miniProject").setMaster("local[*]")

#任何Spark程序都是SparkContext开始的，SparkContext的初始化需要一个SparkConf对象，SparkConf包含了Spark集群配置的各种参数(比如主节点的URL)。

#初始化后，就可以使用SparkContext对象所包含的各种方法来创建和操作RDD和共享变量。

#Spark shell会自动初始化一个SparkContext(在Scala和Python下可以，但不支持Java)。

#getOrCreate表明可以视情况新建session或利用已有的session

sc=SparkContext.getOrCreate(conf)

# 利用list创建一个RDD;使用sc.parallelize可以把Python list，NumPy array或者Pandas Series,Pandas DataFrame转成Spark RDD。

rdd = sc.parallelize([1,2,3,4,5])

rdd 打印 ParallelCollectionRDD[0] at parallelize at PythonRDD.scala:195

# getNumPartitions() 方法查看list被分成了几部分

rdd.getNumPartitions() 打印结果：2

# glom().collect()查看分区状况

rdd.glom().collect() 打印结果： [[1, 2], [3, 4, 5]]

二、可直接执行 spark-shell，也可以执行 spark-shell --master local[2]

多线程方式：运行 spark-shell --master local[N] 读取 linux本地文件数据。通过本地 N 个线程跑任务，只运行一个 SparkSubmit 进程，利用 spark-shell --master local[N] 读取本地数据文件实现单词计数master local[N]：采用本地单机版的来进行任务的计算，N是一个正整数，它表示本地采用N个线程来进行任务的计算，会生成一个SparkSubmit进程

查看全文

相关阅读:
c++MMMMM:oo
pytorch简单框架
 第95：PCA
P1:天文数据获取
 深度学习常用函数记录（tensorflow）
流畅的python（一）序列构成的数组
 tensorflow2.0学习笔记（一）
BiseNet阅读总结
 DenseASPP论文总结
 论文写作总结

原文地址：https://www.cnblogs.com/Raodi/p/11461134.html

热门文章
冒泡排序法
 蓝牙协议栈
 16 道嵌入式C语言面试题
 蓝牙的发展史
 C++构造函数和析构函数的调用顺序
 C++类
 C++ this指针
 C++析构函数
 93.插值拟合
 LSTM