zoukankan      html  css  js  c++  java
  • 1.5学习总结:安装Spark

    1.Spark简介

    2.Spark安装总览

    Spark安装配置分为以下6个步骤:下载,上传到虚拟机并解压,配置,配置HistortSerer,分发,启动集群

    3.下载

    https://spark.apache.org/downloads.html

    4.上传解压

    将本机下载好的安装包上传到虚拟机,我使用的是Xftp6,下载好后进行解压:tar xzvf spark.tgz(这里我对压缩包进行了重命名)

    5.配置

    为Spark配置JAVA的路径及启动时的主机和端口号

    首先进入Spark目录,点开conf目录下有一个spark-env.sh.temeplate文件,复制一份,去掉后缀:cp spark-env.sh.temeplate spark-env.sh

    修改此文件,添加以下内容:

    export JAVA_HOME=/usr/local/java/jdk1.8.0_261
    export SPARK_MASTER_HOST=master
    export SPARK_MASTER_PORT=7077

    注:第一个写jdk的路径,第二个写主机名

    6.配置HistoryServer

    6.1 主节点启动Spark,需启动其他节点的worker,配置步骤:

      同样在conf目录下有一个slaves.template文件,在这个文件中添加所有需要启动worker的主机名,并重命名去掉后缀

    6.2 Spark是一个即用即走的工具,运行Spark程序结束后可能无法查看运行结果,过程等信息,可以配置历史服务,查看历史信息

    首先复制conf目录下的spark-defaults.conf.template文件并去掉后缀。编辑复制后的文件,添加以下内容:

    spark.eventLog.enabled true
    spark.eventLog.dir hdfs://master:8021/spark_log
    spark.eventLog.compress true

    在hadoop中创建日志目录:hdfs dfs -mkdir -p /spark_log(需要首先启动hadoop集群)

    7.分发

    进入spark安装目录的上一级目录,输入以下命令

     

    8.启动集群

     进入spark目录下的sbin目录,执行start-all.sh命令

  • 相关阅读:
    uboot配置和编译过程详解
    gcc 与 g++的区别
    ARM交叉编译器GNUEABI、NONE-EABI、ARM-EABI、GNUEABIHF等的区别
    SPI UART区别是什么
    C#获取时间戳的封装方法函数+使用获取当前时间时间戳
    C#中Timer定时器的使用示例
    Linux查看文件夹大小
    Python对象的创建和赋值
    使用mutt自动发送邮件
    pyTorch安装
  • 原文地址:https://www.cnblogs.com/wangzhaojun1670/p/14288544.html
Copyright © 2011-2022 走看看