hue 集成spark+livy

zoukankan html css js c++ java

hue 集成spark+livy
hue 集成spark+livy

一.先决条件

安装hue、hadoop。

二.spark on yarn 安装

1.添加环境变量 vim /etc/profile
SCALA_HOME=/opt/scala SPARK_HOME=/opt/spark
2.配置spark; vim conf/spark-env.sh
#服务器域名 SPARK_LOCAL_IP=node7 #master 地址 SPARK_MASTER_HOST=node7 #master 端口 SPARK_MASTER_PORT=7077 #spark ui 端口 SPARK_MASTER_WEBUI_PORT=8080 #hadoop 配置目录 export HADOOP_CONF_DIR=/opt/hadoop-2.7.4/etc/hadoop/
3.配置spark ;vim conf/spark-defaults.conf
#spark 依赖的jar包 spark.yarn.jars=hdfs://node7:9010/user/sparkJars/jars/*
```
hdfs://node7:9010/user/sparkJars/jars/* 该路径的由来：
1. 找到spark程序目录的jars目录,如下图：
```
2.将该路径的jars包上传到hdfs的目录 (本例子中的hdfs路径是:/user/sparkJars/jars)

注：如果不配置该路径，那么每次提交spark 程序时就会上传jars包，这样会影响提交程序的效率，同时会占用hdfs的磁盘空间。

4.测试部署

使用spark-shell打开scala客户端。
./bin/spark-shell --master yarn --deploy-mode client
如果yarn 后台上面出现下图的记录，则表示部署成功。

三.安装livy

1. 下载livy 安装包

下载地址：http://livy.incubator.apache.org/download/

2.设置环境变量

vim /etc/profile
#spark程序目录
export SPARK_HOME=/opt/spark #hadoop 配置目录 export HADOOP_CONF_DIR=/opt/hadoop-2.7.4/etc/hadoop/
再执行source profile命令，让环境变量生效

3.解压zip包
unzip livy-0.5.0-incubating-bin.zip
mv livy-0.5.0-incubating-bin.zip livy-0.5.0
4.配置livy

vi livy.conf
#livy服务端口 livy.server.port = 8998 #spark程序部署使用yarn集群 livy.spark.master = yarn #spark 程序使用客户端模式 livy.spark.deploy-mode =client
四.配置hue

1.配置hue.ini

vim hue.ini
[spark] # livy 服务器域名 livy_server_host=node8 # livy 服务器端口 ## livy_server_port=8998 # Configure Livy to start in local 'process' mode, or 'yarn' workers. livy_server_session_kind=yarn
五.验证配置是否正确

1.登录hue后台，打开scala编辑页，执行以下scala代码
var counter = 0 val data = Array(1, 2, 3, 4, 5) var rdd = sc.parallelize(data) // Wrong: Don't do this!! rdd.map(x=>x+1).collect()
出现如下结果，则证明集成成功。

六.可能出现的问题

1. 在执行spark on yarn部署阶段，执行“spark-shell --master yarn --deploy-mode client” 命令，出现异常：spark on yarn Another instance of Derby may have already booted the database

则执行ps -ef |grep spark-shell ，找到进程号，执行命令：“kill -9 进程号”，杀死spark-shell进程,再次执行“spark-shell --master yarn --deploy-mode client” 就解决了。

2.再执行spark on yarn部署阶段，执行“spark-shell --master yarn --deploy-mode client” 命令，出现：Spark on yarn Container beyond virtual memory limits

解决方法：修改hadoop 的yarn-site.xml ,新增如下配置
<property> <name>yarn.nodemanager.vmem-check-enabled</name> <value>false</value> </property>
查看全文

相关阅读:
.net String.Format数字格式化输出
 sql prompt5安装好了，也破解完成了，然后到SQL里面还是没有提示是为什么？
DataSet筛选数据然后添加到新的DataSet中引发的一系列血案
 .net 时间戳互相转换（精确到毫秒）
记录一次MVC 3.0错误 HTTP 404您正在查找的资源(或者它的一个依赖项)可能已被移除，或其名称已更改，或暂时不可用。请检查以下 URL 并确保其拼写正确。
IIS7部署项目时提示："错误消息 401.2。: 未经授权: 服务器配置导致登录失败。"的解决办法
 IIS发布网站出现“未能加载文件或程序集“System.Data.SQLite”或它的某一个依赖项。”的解决方法
 微信支付（APP）集成时碰到的问题（.net提示“无权限”、iOS跳转到微信支付页面中间只有一个“确定”按钮）
由SpringMVC中RequetContextListener说起
 关于cas-client单点登录客户端拦截请求和忽略/排除不需要拦截的请求URL的问题（不需要修改任何代码，只需要一个配置）

原文地址：https://www.cnblogs.com/chengjunhao/p/9067666.html

hue 集成spark+livy

hue 集成spark+livy

一.先决条件

二.spark on yarn 安装

1.添加环境变量 vim /etc/profile

2.配置spark; vim conf/spark-env.sh

3.配置spark ;vim conf/spark-defaults.conf

4.测试部署

三.安装livy

2.设置环境变量

3.解压zip包

4.配置livy

四.配置hue

1.配置hue.ini

五.验证配置是否正确

六.可能出现的问题