zoukankan      html  css  js  c++  java
  • Spark集群模式安装

    实现步骤:

    1)上传解压spark安装包

    2)进入spark安装目录的conf目录

    3)配置spark-env.sh文件

       

    配置示例:

    #本机ip地址

    SPARK_LOCAL_IP=hadoop01

    #spark的shuffle中间过程会产生一些临时文件,此项指定的是其存放目录,不配置默认是在 /tmp目录下

    SPARK_LOCAL_DIRS=/home/software/spark/tmp

    export JAVA_HOME=/home/software/jdk1.8

       

    4)在conf目录下,编辑slaves文件

    配置示例:

    hadoop01

    hadoop02

    hadoop03

    5)配置完后,将spark目录发送至其他节点,并更改对应的 SPARK_LOCAL_IP 配置

       

    启动集群

       

    1)如果你想让 01 虚拟机变为master节点,则进入01 的spark安装目录的sbin目录

    执行: sh start-all.sh

       

    2)通过jps查看各机器进程,

    01:Master +Worker

    02:Worker

    03:Worker

    3)通过浏览器访问管理界面

    http://192.168.234.11:8080

    4)通过spark shell 连接spark集群

    进入spark的bin目录

    执行:sh spark-shell.sh --master spark://192.168.234.11:7077

       

    6)在集群中读取文件:

    sc.textFile("/root/work/words.txt")

    默认读取本机数据 这种方式需要在集群的每台机器上的对应位置上都一份该文件 浪费磁盘

    7)所以应该通过hdfs存储数据

    sc.textFile("hdfs://hadoop01:9000/mydata/words.txt");

       

    注:可以在spark-env.sh 中配置选项 HADOOP_CONF_DIR 配置为hadoopetc/hadoop的地址 使默认访问的是hdfs的路径

    注:如果修改默认地址是hdfs地址 则如果想要访问文件系统中的文件 需要指明协议为file 例如 sc.text("file:///xxx/xx")

       

  • 相关阅读:
    hdu 5115 区间dp ***
    CF 149D Coloring Brackets 区间dp ****
    区间dp总结
    hdu 5284 BestCoder Round #48 ($) 1001 水题 *
    vijos 1038 括号+路径 ***
    vijos 1037 ***
    vijos 1028 LIS *
    使用alpine 构建 golang 运行容器
    Go Http包解析:为什么需要response.Body.Close()
    如果open的file不close , 会有什么样的影响
  • 原文地址:https://www.cnblogs.com/shuzhiwei/p/11323212.html
Copyright © 2011-2022 走看看