zoukankan      html  css  js  c++  java
  • Spark学习之路 (五)Spark伪分布式安装

    一、JDK的安装

    JDK使用root用户安装

    1.1 上传安装包并解压

    [root@hadoop1 soft]# tar -zxvf jdk-8u73-linux-x64.tar.gz -C /usr/local/

    1.2 配置环境变量

    [root@hadoop1 soft]# vi /etc/profile
    #JAVA
    export JAVA_HOME=/usr/local/jdk1.8.0_73
    export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib 
    export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOME/bin 

    1.3 验证Java版本

    [root@hadoop1 soft]# java -version

    二、配置配置ssh localhost 

    使用hadoop用户安装

    2.1 检测

    正常情况下,本机通过ssh连接自己也是需要输入密码的

    2.2 生成私钥和公钥秘钥对

    [hadoop@hadoop1 ~]$ ssh-keygen -t rsa

    2.3 将公钥添加到authorized_keys

    [hadoop@hadoop1 ~]$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

    2.4 赋予authorized_keys文件600的权限

    [hadoop@hadoop1 ~]$ chmod 600 ~/.ssh/authorized_keys 

    2.5 修改Linux映射文件(root用户)

    [root@hadoop1 ~]$ vi /etc/hosts

    2.6 验证

    [hadoop@hadoop1 ~]$ ssh hadoop1

    此时不需要输入密码,免密登录设置成功。

    三、安装Hadoop-2.7.5

    使用hadoop用户

    3.1 上传解压缩

    [hadoop@hadoop1 ~]$ tar -zxvf hadoop-2.7.5-centos-6.7.tar.gz -C apps/

    3.2 创建安装包对应的软连接

    为解压的hadoop包创建软连接

    [hadoop@hadoop1 ~]$ cd apps/
    [hadoop@hadoop1 apps]$ ll
    总用量 4
    drwxr-xr-x. 9 hadoop hadoop 4096 12月 24 13:43 hadoop-2.7.5
    [hadoop@hadoop1 apps]$ ln -s hadoop-2.7.5/ hadoop

    3.3 修改配置文件

    进入/home/hadoop/apps/hadoop/etc/hadoop/目录下修改配置文件

    (1)修改hadoop-env.sh

    [hadoop@hadoop1 hadoop]$ vi hadoop-env.sh 
    export JAVA_HOME=/usr/local/jdk1.8.0_73 

    (2)修改core-site.xml

    [hadoop@hadoop1 hadoop]$ vi core-site.xml 
    <configuration>
            <property>
                    <name>fs.defaultFS</name>
                    <value>hdfs://hadoop1:9000</value>
            </property>
            <property>
                    <name>hadoop.tmp.dir</name>
                    <value>/home/hadoop/data/hadoopdata</value>
            </property>
    </configuration>

    (3)修改hdfs-site.xml

    [hadoop@hadoop1 hadoop]$ vi hdfs-site.xml 

    dfs的备份数目,单机用1份就行

            <property>
                    <name>dfs.namenode.name.dir</name>
                    <value>/home/hadoop/data/hadoopdata/name</value>
                    <description>为了保证元数据的安全一般配置多个不同目录</description>
            </property>
    
            <property>
                    <name>dfs.datanode.data.dir</name>
                    <value>/home/hadoop/data/hadoopdata/data</value>
                    <description>datanode 的数据存储目录</description>
            </property>
    
            <property>
                    <name>dfs.replication</name>
                    <value>2</value>
                    <description>HDFS 的数据块的副本存储个数, 默认是3</description>
            </property>    

    (4)修改mapred-site.xml

    [hadoop@hadoop1 hadoop]$ cp mapred-site.xml.template mapred-site.xml
    [hadoop@hadoop1 hadoop]$ vi mapred-site.xml

    mapreduce.framework.name:指定mr框架为yarn方式,Hadoop二代MP也基于资源管理系统Yarn来运行 。

    <configuration>
            <property>
                    <name>mapreduce.framework.name</name>
                    <value>yarn</value>
            </property>
    </configuration>

    (5)修改yarn-site.xml

    [hadoop@hadoop1 hadoop]$ vi yarn-site.xml 
         <property>
                    <name>yarn.nodemanager.aux-services</name>
                    <value>mapreduce_shuffle</value>
                    <description>YARN 集群为 MapReduce 程序提供的 shuffle 服务</description>
            </property>

    3.4 配置环境变量

    千万注意:

    1、如果你使用root用户进行安装。 vi /etc/profile 即可 系统变量

    2、如果你使用普通用户进行安装。 vi ~/.bashrc 用户变量

    [hadoop@hadoop1 ~]$ vi .bashrc
    #HADOOP_HOME
    export HADOOP_HOME=/home/hadoop/apps/hadoop-2.7.5 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:

    使环境变量生效

    [hadoop@hadoop1 bin]$ source ~/.bashrc 

    3.5 查看hadoop版本

    [hadoop@hadoop1 ~]$ hadoop version

    3.6 创建文件夹

    文件夹的路径参考配置文件hdfs-site.xml里面的路径

    [hadoop@hadoop1 ~]$ mkdir -p /home/hadoop/data/hadoopdata/name
    [hadoop@hadoop1 ~]$ mkdir -p /home/hadoop/data/hadoopdata/data

    3.7 Hadoop的初始化

    [hadoop@hadoop1 ~]$ hadoop namenode -format

    3.8 启动HDFS和YARN

    [hadoop@hadoop1 ~]$ start-dfs.sh
    [hadoop@hadoop1 ~]$ start-yarn.sh

    3.9 检查WebUI

    浏览器打开端口50070:http://hadoop1:50070

    其他端口说明: 
    port 8088: cluster and all applications 
    port 50070: Hadoop NameNode 
    port 50090: Secondary NameNode 
    port 50075: DataNode 

    四、Scala的安装(可选)

    使用root安装

    4.1 下载

    Scala下载地址http://www.scala-lang.org/download/all.html

    选择对应的版本,此处在Linux上安装,选择的版本是scala-2.11.8.tgz

    4.2 上传解压缩

    [root@hadoop1 hadoop]# tar -zxvf scala-2.11.8.tgz -C /usr/local/

    4.3 配置环境变量

    [root@hadoop1 hadoop]# vi /etc/profile
    #Scala
    export SCALA_HOME=/usr/local/scala-2.11.8
    export PATH=$SCALA_HOME/bin:$PATH

    保存并使其立即生效

    [root@hadoop1 scala-2.11.8]# source /etc/profile

    4.4 验证是否安装成功

    [root@hadoop1 ~]# scala -version

    五、Spark的安装

    5.1 下载安装包

    下载地址:

    http://spark.apache.org/downloads.html

    http://mirrors.hust.edu.cn/apache/

    https://mirrors.tuna.tsinghua.edu.cn/apache/

    5.2 上传解压缩

    [hadoop@hadoop1 ~]$ tar -zxvf spark-2.3.0-bin-hadoop2.7.tgz -C apps/

    5.3 为解压包创建一个软连接

    [hadoop@hadoop1 ~]$ cd apps/
    [hadoop@hadoop1 apps]$ ls
    hadoop  hadoop-2.7.5  spark-2.3.0-bin-hadoop2.7
    [hadoop@hadoop1 apps]$ ln -s spark-2.3.0-bin-hadoop2.7/ spark

    5.4 进入spark/conf修改配置文件

    [hadoop@hadoop1 apps]$ cd spark/conf/

     复制spark-env.sh.template并重命名为spark-env.sh,并在文件最后添加配置内容

    [hadoop@hadoop1 conf]$ cp spark-env.sh.template spark-env.sh
    [hadoop@hadoop1 conf]$ vi spark-env.sh
    export JAVA_HOME=/usr/local/jdk1.8.0_73
    export SCALA_HOME=/usr/share/scala-2.11.8
    export HADOOP_HOME=/home/hadoop/apps/hadoop-2.7.5
    export HADOOP_CONF_DIR=/home/hadoop/apps/hadoop-2.7.5/etc/hadoop
    export SPARK_MASTER_IP=hadoop1
    export SPARK_MASTER_PORT=7077

    5.5 配置环境变量

    [hadoop@hadoop1 conf]$ vi ~/.bashrc 
    #SPARK_HOME
    export SPARK_HOME=/home/hadoop/apps/spark
    export PATH=$PATH:$SPARK_HOME/bin

    保存使其立即生效

    [hadoop@hadoop1 conf]$ source ~/.bashrc

    5.6 启动Spark

    [hadoop@hadoop1 ~]$  ~/apps/spark/sbin/start-all.sh 

    5.7 查看进程

    5.8 查看web界面

    http://hadoop1:8080/

  • 相关阅读:
    Vim 配置 winmanager
    删除字符串中重复字符
    检查字符串中是否存在重复字符
    字符串逆序输出
    shell 循环使用
    Windows下JNI执行步骤
    JNI中使用cl命令生成DLL文件
    javaZIP压缩文件
    java Mail发送邮件
    关于在同一个DIV下的Hover效果问题
  • 原文地址:https://www.cnblogs.com/qingyunzong/p/8903714.html
Copyright © 2011-2022 走看看