zoukankan      html  css  js  c++  java
  • 搭建centos7的开发环境3-Spark安装配置

    说起大数据开发,必然就会提到Spark,在这片博文中,我们就介绍一下Spark的安装和配置。
    这是Centos7开发环境系列的第三篇,本篇的安装会基于之前的配置进行,有需要的请回复搭建centos7的开发环境1-系统安装及Python配置搭建centos7的开发环境2-单机版Hadoop2.7.3配置

    安装Spark

    这里说明一下各种软件的版本号:
    open-JDK: 1.8.0
    Hadoop: 2.7.3
    scala: 2.11.8
    Spark: 2.1.0

    scala

    • 下载 sacla2.11.8
    • 解压安装,并配置环境变量
    1. tar -zxvf scala-2.11.8.tgz
    2. sudo mv scala-2.11.8 /usr/scala

    spark

    • 下载 spark 2.1.0
    • 解压安装,并配置环境变量
    1. tar -zxvf spark-2.1.0-bin-hadoop2.7.tgz
    2. sudo mv spark-2.1.0 /usr/spark
    3. vim /etc/profile
    4. ========================
    5. export HADOOP_OPTS="$HADOOP_OPTS -Djava.library.path=$HADOOP_HOME/lib/native"
    6. SCALA_HOME=/usr/scala
    7. export PATH=$PATH:$SCALA_HOME/bin
    8. SPARK_HOME=/usr/spark
    9. export PATH=$SPARK_HOME/bin:$PATH
    10. ========================
    11. source /etc/profile
    12. ###########################
    13. export SCALA_HOME=/usr/scala
    14. export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.121-0.b13.el7_3.x86_64
    15. export SPARK_MASTER_IP=127.0.0.1
    16. export SPARK_LOCAL_IP=127.0.0.1
    17. export SPARK_WORKER_MEMORY=1g
    18. export HADOOP_CONF_DIR=/usr/hadoop/etc/hadoop

    配置完成之后,启动命令

    /usr/hadoop/sbin/start-all.sh
    /usr/spark/sbin/start-all.sh
    打开链接 http://127.0.0.1:8080/,现在可以看到:

    在终端分别输入spark-shell和pyspark都运行正常。

    wordcount测试

    创建数据集

    在spark官网拷贝了一个网页作为数据源创建words.txt作为输入数据,并导入hdfs.

    1. touch words.txt
    2. vim words.txt
    3. cd /usr/hadoop/sbin
    4. hadoop fs -mkdir hdfs://localhost:9000/input
    5. hadoop fs -put /home/kejun/words.txt hdfs://localhost:90000/input
    6. pyspark

    现在进入pyspark的界面:

    1. textFile=sc.textFile("hdfs://localhost:9000/input/words.txt")
    2. counts = textFile.flatMap(lambda line: line.split(" ")).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)
    3. counts.saveAsTextFile("hdfs://localhost:9000/input/out")

    在hdfs的filesystem可以下载到wordcount结果

    spark安装成功啦~

  • 相关阅读:
    查看端口有没有被占用
    微信公众号2()
    How to insert a segment of noise to music file
    puppet practice
    Docker Commands
    LempelZiv algorithm realization
    The algorithm of entropy realization
    Java network programmingguessing game
    Deploy Openstack with RDO and Change VNC console to Spice
    puppet overview
  • 原文地址:https://www.cnblogs.com/kendrick/p/6655987.html
Copyright © 2011-2022 走看看