zoukankan      html  css  js  c++  java
  • Spark学习之路 (五)Spark伪分布式安装

    一、JDK的安装

    JDK使用root用户安装

    1.1 上传安装包并解压

    [root@hadoop1 soft]# tar -zxvf jdk-8u73-linux-x64.tar.gz -C /usr/local/

    1.2 配置环境变量

    [root@hadoop1 soft]# vi /etc/profile
    #JAVA
    export JAVA_HOME=/usr/local/jdk1.8.0_73
    export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib 
    export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOME/bin 

    1.3 验证Java版本

    [root@hadoop1 soft]# java -version

    二、配置配置ssh localhost 

    使用hadoop用户安装

    2.1 检测

    正常情况下,本机通过ssh连接自己也是需要输入密码的

    2.2 生成私钥和公钥秘钥对

    [hadoop@hadoop1 ~]$ ssh-keygen -t rsa

    2.3 将公钥添加到authorized_keys

    [hadoop@hadoop1 ~]$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

    2.4 赋予authorized_keys文件600的权限

    [hadoop@hadoop1 ~]$ chmod 600 ~/.ssh/authorized_keys 

    2.5 修改Linux映射文件(root用户)

    [root@hadoop1 ~]$ vi /etc/hosts

    2.6 验证

    [hadoop@hadoop1 ~]$ ssh hadoop1

    此时不需要输入密码,免密登录设置成功。

    三、安装Hadoop-2.7.5

    使用hadoop用户

    3.1 上传解压缩

    [hadoop@hadoop1 ~]$ tar -zxvf hadoop-2.7.5-centos-6.7.tar.gz -C apps/

    3.2 创建安装包对应的软连接

    为解压的hadoop包创建软连接

    [hadoop@hadoop1 ~]$ cd apps/
    [hadoop@hadoop1 apps]$ ll
    总用量 4
    drwxr-xr-x. 9 hadoop hadoop 4096 12月 24 13:43 hadoop-2.7.5
    [hadoop@hadoop1 apps]$ ln -s hadoop-2.7.5/ hadoop

    3.3 修改配置文件

    进入/home/hadoop/apps/hadoop/etc/hadoop/目录下修改配置文件

    (1)修改hadoop-env.sh

    [hadoop@hadoop1 hadoop]$ vi hadoop-env.sh 
    export JAVA_HOME=/usr/local/jdk1.8.0_73 

    (2)修改core-site.xml

    [hadoop@hadoop1 hadoop]$ vi core-site.xml 
    <configuration>
            <property>
                    <name>fs.defaultFS</name>
                    <value>hdfs://hadoop1:9000</value>
            </property>
            <property>
                    <name>hadoop.tmp.dir</name>
                    <value>/home/hadoop/data/hadoopdata</value>
            </property>
    </configuration>

    (3)修改hdfs-site.xml

    [hadoop@hadoop1 hadoop]$ vi hdfs-site.xml 

    dfs的备份数目,单机用1份就行

            <property>
                    <name>dfs.namenode.name.dir</name>
                    <value>/home/hadoop/data/hadoopdata/name</value>
                    <description>为了保证元数据的安全一般配置多个不同目录</description>
            </property>
    
            <property>
                    <name>dfs.datanode.data.dir</name>
                    <value>/home/hadoop/data/hadoopdata/data</value>
                    <description>datanode 的数据存储目录</description>
            </property>
    
            <property>
                    <name>dfs.replication</name>
                    <value>2</value>
                    <description>HDFS 的数据块的副本存储个数, 默认是3</description>
            </property>    

    (4)修改mapred-site.xml

    [hadoop@hadoop1 hadoop]$ cp mapred-site.xml.template mapred-site.xml
    [hadoop@hadoop1 hadoop]$ vi mapred-site.xml

    mapreduce.framework.name:指定mr框架为yarn方式,Hadoop二代MP也基于资源管理系统Yarn来运行 。

    <configuration>
            <property>
                    <name>mapreduce.framework.name</name>
                    <value>yarn</value>
            </property>
    </configuration>

    (5)修改yarn-site.xml

    [hadoop@hadoop1 hadoop]$ vi yarn-site.xml 
         <property>
                    <name>yarn.nodemanager.aux-services</name>
                    <value>mapreduce_shuffle</value>
                    <description>YARN 集群为 MapReduce 程序提供的 shuffle 服务</description>
            </property>

    3.4 配置环境变量

    千万注意:

    1、如果你使用root用户进行安装。 vi /etc/profile 即可 系统变量

    2、如果你使用普通用户进行安装。 vi ~/.bashrc 用户变量

    [hadoop@hadoop1 ~]$ vi .bashrc
    #HADOOP_HOME
    export HADOOP_HOME=/home/hadoop/apps/hadoop-2.7.5 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:

    使环境变量生效

    [hadoop@hadoop1 bin]$ source ~/.bashrc 

    3.5 查看hadoop版本

    [hadoop@hadoop1 ~]$ hadoop version

    3.6 创建文件夹

    文件夹的路径参考配置文件hdfs-site.xml里面的路径

    [hadoop@hadoop1 ~]$ mkdir -p /home/hadoop/data/hadoopdata/name
    [hadoop@hadoop1 ~]$ mkdir -p /home/hadoop/data/hadoopdata/data

    3.7 Hadoop的初始化

    [hadoop@hadoop1 ~]$ hadoop namenode -format

    3.8 启动HDFS和YARN

    [hadoop@hadoop1 ~]$ start-dfs.sh
    [hadoop@hadoop1 ~]$ start-yarn.sh

    3.9 检查WebUI

    浏览器打开端口50070:http://hadoop1:50070

    其他端口说明: 
    port 8088: cluster and all applications 
    port 50070: Hadoop NameNode 
    port 50090: Secondary NameNode 
    port 50075: DataNode 

    四、Scala的安装(可选)

    使用root安装

    4.1 下载

    Scala下载地址http://www.scala-lang.org/download/all.html

    选择对应的版本,此处在Linux上安装,选择的版本是scala-2.11.8.tgz

    4.2 上传解压缩

    [root@hadoop1 hadoop]# tar -zxvf scala-2.11.8.tgz -C /usr/local/

    4.3 配置环境变量

    [root@hadoop1 hadoop]# vi /etc/profile
    #Scala
    export SCALA_HOME=/usr/local/scala-2.11.8
    export PATH=$SCALA_HOME/bin:$PATH

    保存并使其立即生效

    [root@hadoop1 scala-2.11.8]# source /etc/profile

    4.4 验证是否安装成功

    [root@hadoop1 ~]# scala -version

    五、Spark的安装

    5.1 下载安装包

    下载地址:

    http://spark.apache.org/downloads.html

    http://mirrors.hust.edu.cn/apache/

    https://mirrors.tuna.tsinghua.edu.cn/apache/

    5.2 上传解压缩

    [hadoop@hadoop1 ~]$ tar -zxvf spark-2.3.0-bin-hadoop2.7.tgz -C apps/

    5.3 为解压包创建一个软连接

    [hadoop@hadoop1 ~]$ cd apps/
    [hadoop@hadoop1 apps]$ ls
    hadoop  hadoop-2.7.5  spark-2.3.0-bin-hadoop2.7
    [hadoop@hadoop1 apps]$ ln -s spark-2.3.0-bin-hadoop2.7/ spark

    5.4 进入spark/conf修改配置文件

    [hadoop@hadoop1 apps]$ cd spark/conf/

     复制spark-env.sh.template并重命名为spark-env.sh,并在文件最后添加配置内容

    [hadoop@hadoop1 conf]$ cp spark-env.sh.template spark-env.sh
    [hadoop@hadoop1 conf]$ vi spark-env.sh
    export JAVA_HOME=/usr/local/jdk1.8.0_73
    export SCALA_HOME=/usr/share/scala-2.11.8
    export HADOOP_HOME=/home/hadoop/apps/hadoop-2.7.5
    export HADOOP_CONF_DIR=/home/hadoop/apps/hadoop-2.7.5/etc/hadoop
    export SPARK_MASTER_IP=hadoop1
    export SPARK_MASTER_PORT=7077

    5.5 配置环境变量

    [hadoop@hadoop1 conf]$ vi ~/.bashrc 
    #SPARK_HOME
    export SPARK_HOME=/home/hadoop/apps/spark
    export PATH=$PATH:$SPARK_HOME/bin

    保存使其立即生效

    [hadoop@hadoop1 conf]$ source ~/.bashrc

    5.6 启动Spark

    [hadoop@hadoop1 ~]$  ~/apps/spark/sbin/start-all.sh 

    5.7 查看进程

    5.8 查看web界面

    http://hadoop1:8080/

  • 相关阅读:
    hdu 1455 N个短木棒 拼成长度相等的几根长木棒 (DFS)
    hdu 1181 以b开头m结尾的咒语 (DFS)
    hdu 1258 从n个数中找和为t的组合 (DFS)
    hdu 4707 仓鼠 记录深度 (BFS)
    LightOJ 1140 How Many Zeroes? (数位DP)
    HDU 3709 Balanced Number (数位DP)
    HDU 3652 B-number (数位DP)
    HDU 5900 QSC and Master (区间DP)
    HDU 5901 Count primes (模板题)
    CodeForces 712C Memory and De-Evolution (贪心+暴力)
  • 原文地址:https://www.cnblogs.com/qingyunzong/p/8903714.html
Copyright © 2011-2022 走看看