不跟hadoop在一个机器
1、vim /etc/profile
export JAVA_HOME=/usr/local/jdk1.8.0_171
export JRE_HOME=$JAVA_HOME/jre
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$PATH
export SPARK_HOME=/data1/spark-2.3.1
export PATH=$PATH:$SPARK_HOME/bin
export SCALA_HOME=/usr/local/scala-2.12.6
export PATH=$PATH:$SCALA_HOME/bin
2、修改spark-env.sh
cp spark-env.sh.template spark-env.sh
vi spark-env.sh
> export SPARK_SSH_OPTS="-p 21860"
> export JAVA_HOME=/usr/local/jdk1.8.0_171
> export SCALA_HOME=/usr/local/scala-2.12.6
> export HADOOP_HOME=/data1/hadoop
> export HADOOP_CONF_DIR=/data1/hadoop/etc/hadoop
> export SPARK_MASTER_IP=spark1
> export SPARK_WORKER_MEMORY=80g
> export SPARK_WORKER_CORES=2
> export SPARK_WORKER_INSTANCES=1
3、生成slves
spark1
spark2
spark3
4、把/data1/spark-2.3.1和/data1/hadoop同步到另外几个机器
5、启动并查看集群状态
start-all.sh
http://spark1:8080/
查看某个机器:
http://spark2:8081/
6、测试脚本spark-shell。访问远程hadoop数据
val file=sc.textFile("hdfs://namenode1:9000/hive/warehouse/test.db/test_log/test1.txt.gz") val rdd = file.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_) rdd.collect() rdd.foreach(println) :quit
===================
下载java
http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
卸载centos自己带的jdk
第一步:查看Linux自带的JDK是否已安装 (卸载centOS已安装的1.4)
安装好的CentOS会自带OpenJdk,用命令 java -version ,会有下面的信息:
java version "1.6.0"
OpenJDK Runtime Environment (build 1.6.0-b09)
OpenJDK 64-Bit Server VM (build 1.6.0-b09, mixed mode)
最好还是先卸载掉openjdk,在安装sun公司的jdk.
先查看 rpm -qa | grep java
显示如下信息:
java-1.4.2-gcj-compat-1.4.2.0-40jpp.115
java-1.6.0-openjdk-1.6.0.0-1.7.b09.el5
卸载:
rpm -e --nodeps java-1.4.2-gcj-compat-1.4.2.0-40jpp.115
rpm -e --nodeps java-1.6.0-openjdk-1.6.0.0-1.7.b09.el5
还有一些其他的命令
rpm -qa | grep gcj
rpm -qa | grep jdk
如果出现找不到openjdk source的话,那么还可以这样卸载
yum -y remove java java-1.4.2-gcj-compat-1.4.2.0-40jpp.115
yum -y remove java java-1.6.0-openjdk-1.6.0.0-1.7.b09.el5
<1># rpm -qa|grep jdk ← 查看jdk的信息或直接执行
或
# rpm -q jdk
或
# java -version
<2># rpm -qa | grep gcj ← 确认gcj的版本号
<3># yum -y remove java-1.4.2-gcj-compat ← 卸载gcj
第二步:安装JDK
<1>从SUN下载jdk-1_5_0_14-linux-i586-rpm.bin或jdk-1_5_0_14-linux-i586.bin
在/usr下新建java文件夹,将安装包放在/usr/java目录下
# mkdir /usr/java
<2>安装JDK
# cd /usr/java
①jdk-1_5_0_14-linux-i586-rpm.bin文件安装
# chmod 777 jdk-1_5_0_14-linux-i586-rpm.bin ← 修改为可执行
# ./jdk-1_5_0_14-linux-i586-rpm.bin ← 选择yes同意上面的协议
# rpm -ivh jdk-1_5_0_14-linux-i586.rpm ← 选择yes直到安装完毕
②jdk-1_5_0_14-linux-i586.bin文件安装
# chmod a+x jdk-1_5_0_14-linux-i586.bin ← 使当前用户拥有执行权限
# ./jdk-1_5_0_14-linux-i586.bin ← 选择yes直到安装完毕
rm -rf /usr/share/java/*
cp -rf jdk***/* /usr/share/java