zoukankan      html  css  js  c++  java
  • Ubuntu 14.10 下安装Spark

    Spark 是一种与 Hadoop 相似的开源集群计算环境,不过最近非常火.下面介绍安装步骤.

    1 安装scala

      1.1 我选用的是2.11.4,下载地址http://www.scala-lang.org/download/

      1.2 解压到文件夹

    tar -xzvf scala-2.11.4.tgz 

      1.3 设置环境变量

    sudo nano /etc/profile
    export SCALA_HOME=/home/liucc/software/spark/scala-2.11.4
    export PATH=$PATH:$SCALA_HOME/bin

      1.4 检查是否安装成功

    scala -version

    2 安装Spark 

      2.0  Spark编译的话,可以用MVN,SBT,和他自带的make-distribution.sh文件

    sbt/sbt assembly -Phadoop-2.6 -Dhadoop.version=2.6.0 -Pyarn -Dyarn.version=2.6.0 -Pspark-ganglia-lgpl -Pkinesis-asl -Phive
    
    mvn -Phadoop-2.6 -Dhadoop.version=2.6.0 -Pyarn -Dyarn.version=2.6.0 -Pspark-ganglia-lgpl -Pkinesis-asl -Phive -DskipTests clean package  
    
    ./make-distribution.sh --tgz --name 2.6.0 -Pyarn -Phadoop-2.6 -Pspark-ganglia-lgpl -Phive -DskipTests

      2.1 下载编译好的spark,我是看了这个博主写的http://www.aboutyun.com/thread-8160-1-1.html,我选的是hadoop2.2.0

    下载预编译好的Spark, (32位、64都可以)
    hadoop1安装包
    密码:d4om
    hadoop2安装
    密码:elpg
    2.2 解压到相应目录
    tar -xzvf spark-1.0.0-bin-hadoop2.tgz

      2.3 设置SPARK_HOME

    export SPARK_EXAMPLES_JAR=/home/liucc/software/spark/spark-1.0.0/examples/target/scala-2.11.4/spar$
    export SPARK_HOME=/home/liucc/software/spark/spark-1.0.0

      备注:SPARK_EXAMPLES_JAR的设置是摘抄自pig2:这一步其实最关键,很不幸的是,官方文档和网上的博客,都没有提及这一点。我是偶然看到了这两篇帖子,Running SparkPi, Null pointer exception when running ./run spark.examples.SparkPi local,才补上了这一步,之前死活都无法运行SparkPi。

      2.4 配置Spark,进入到conf目录下面,配置spark-env.sh文件

    cp spark-env.sh.template spark-env.sh
    nano spark-env.sh
    export JAVA_HOME=/usr/dev/jdk1.7.0_51
    export SCALA_HOME=/home/liucc/software/spark/scala-2.11.4

      2.5 至此配置完毕,可以启动试试,进入sprk目录,可以通过 http://localhost:8080/ 看到对应界面

    sbin/start-master.sh

    3 测试,下面在spark上运行第一个例子:与Hadoop交互的WordCount

      3.1 将文件上传到hadoop中

      3.2 进入spark-shell,进入spark根目录

    bin/spark-shell

      3.3 输入scala语句,不熟悉的话,可以去学习一下,有个公开课https://class.coursera.org/progfun-005,很不错

    val file=sc.textFile("要统计的文件")
    val count=file.flatMap(line=>line.split(" ")).map(word=>(word,1)).reduceByKey(_+_)
    count.collect()

      如果没错的话会看到结果

      3.4 可以将结果上传到hadoop

    count.saveAsTextFile("要保存的目录")

    ---------------------------------------------------------------------------------------

      完毕,当然,也可以在Eclipse   中用java测试,网上很多了

  • 相关阅读:
    kubernetes 网络故障遇见的坑
    CentOS7 Rsync服务搭建-Rsync+Inotify架构实现实时同步
    centos 7 git的管理和使用
    阿里云 ECS 监控报警设置
    ECS centos7 使用外部邮件服务商的465加密端口
    阿里云ECS 固定带宽变为按量付费的方式
    centos6 和centos7 安装git 的区别
    nginx 新增域名访问
    if 判断文件
    前端基础进阶(一):内存空间详细图解
  • 原文地址:https://www.cnblogs.com/liuchangchun/p/4220699.html
Copyright © 2011-2022 走看看