zoukankan      html  css  js  c++  java
  • Spark 集群搭建


    0. 说明

      Spark 集群搭建

      【集群规划】

    服务器主机名 ip 节点配置
    s101 192.168.23.101 Master
    s102 192.168.23.102 Worker
    s103 192.168.23.103 Worker
    s104 192.168.23.104 Worker

    1. Spark 集群搭建

      1.0 前提

      完成 Spark 单节点的安装,参照  Spark 基本概念 & 安装  安装部分

      基于 Hadoop 完全分布式集群

      1.1 配置 JAVA_HOME 环境变量

    # 复制 spark-env.sh
    cd /soft/spark/conf
    cp spark-env.sh.template spark-env.sh

    # 配置 JAVA_HOME 环境变量
    nano spark-env.sh
    
    export JAVA_HOME=/soft/jdk

      1.2 在 Spark 的 conf 目录下创建 Hadoop 的 core-site.xml 和 hdfs-site.xml 符号连接

    ln -s /soft/hadoop/etc/hadoop/core-site.xml /soft/spark/conf/core-site.xml
    ln -s /soft/hadoop/etc/hadoop/hdfs-site.xml /soft/spark/conf/hdfs-site.xml

      1.3 修改 slaves 文件

    # 复制 slaves
    cd /soft/spark/conf
    cp slaves.template slaves

    # 修改 slaves 文件
    nano  slaves
    
    s102
    s103
    s104

      1.4 分发 Spark

    # 分发 Spark 符号链接
    xsync.sh /soft/spark
    # 分发 Spark 安装目录 xsync.sh
    /soft/spark-2.1.0-bin-hadoop2.7

      1.5 分发环境变量

    # 切换 root 用户
    su root

    # 分发环境变量配置文件 xsync.sh
    /etc/profile

    # 退出 root 用户 exit

      1.6 生效环境变量

    # 分别在s102-s104生效环境变量
    source /etc/profile

     

     2. 启动 Spark 集群

      2.1 启动 ZooKeeper

    # 在 s101 执行
    xzk.sh start    

      2.2 启动 HDFS

    start-dfs.sh

      2.3 启动 Spark

    # 进入目录
    cd /soft/spark/sbin
    
    # 启动
    ./start-all.sh

      2.4 进入 Spark 的 Web UI
      http://s101:8080

      2.5 上传文件到 HDFS 中

       文件内容为以空格分隔的文本。

    hdfs dfs -put wc1.txt /

      2.6 启动 spark shell,连接到 Spark 集群

    # 启动 spark shell,连接到 Spark 集群
    spark-shell --master spark://s101:7077
    
    # 测试
    sc.textFile("/wc1.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect()

     3. 配置 s105 作为 Client [可选]

      【说明】

      配置 s105 作为 Cluster 模式提交 Spark job

      【过程】

      参照以上步骤完成,在有需要的时候配置



    且将新火试新茶,诗酒趁年华。
  • 相关阅读:
    Asp.net Core 系列之--5.认证、授权与自定义权限的实现
    Asp.net Core 系列之--4.事务、日志及错误处理
    Asp.net Core 系列之--3.领域、仓储、服务简单实现
    Asp.net Core 系列之--2.ORM初探:Dapper实现MySql数据库各类操作
    Asp.net Core 系列之--1.事件驱动初探:简单事件总线实现(SimpleEventBus)
    Cocos2d-x项目创建
    Cocos2d-x编译Android环境
    Linux 之 RPM
    Channels实现扫码登录
    SQLALchemy中关于复杂关系表模型的映射处理
  • 原文地址:https://www.cnblogs.com/share23/p/9759964.html
Copyright © 2011-2022 走看看