zoukankan      html  css  js  c++  java
  • spark Intellij IDEA开发环境搭建

    (1)创建Scala项目

    File->new->Project,如下图 
    这里写图片描述
    选择Scala 
    这里写图片描述
    然后next 
    这里写图片描述
    其中Project SDK指定安装的JDK,Scala SDK指定安装的Scala(这里使用的是IDEA自带的scala SDK),这里将项目名称命令为SparkWordCount,然后finish 
    这里写图片描述

    在IDEA中开发应用程序时,常常需要通过一定的文件目录组织进行源码编写,例如源文件目录、测试源文件目录,下面演示在Intellij IDEA的src目录下创建main/scala源文件目录。 
    直接按F4或右鍵点击工程文件 
    这里写图片描述

    再选择open module setting,打开项目配置,点击src目录,然后右键创建main/scala文件夹,再点击scala文件夹为sources,如下图所示 
    这里写图片描述

    ### (2)导入Spark 1.5.0依赖包 
    直接F4打开Project Structure,然后选择libraries 
    这里写图片描述
    点击上图中的+添加外部依赖包,选择”java”,然后再选择spark-assembly-1.5.0-hadoop2.4.0.jar 
    这里写图片描述
    成功后如下图 
    这里写图片描述

    至此Spark开发环境配置完成

    2. Spark应用程序开发

    (1) 本地方式执行Spark WordCount程序

    在src/main/scala源文件目录中创建一个SparkWordCount 应用程序对象,编辑内容如下:

    import org.apache.spark.SparkContext._
    import org.apache.spark.{SparkConf, SparkContext}
    
    object SparkWordCount{
      def main(args: Array[String]) {
        //输入文件既可以是本地linux系统文件,也可以是其它来源文件,例如HDFS
        if (args.length == 0) {
          System.err.println("Usage: SparkWordCount <inputfile>")
          System.exit(1)
        }
        //以本地线程方式运行,可以指定线程个数,
        //如.setMaster("local[2]"),两个线程执行
        //下面给出的是单线程执行
        val conf = new SparkConf().setAppName("SparkWordCount").setMaster("local")
        val sc = new SparkContext(conf)
    
        //wordcount操作,计算文件中包含Spark的行数
        val count=sc.textFile(args(0)).filter(line => line.contains("Spark")).count()
        //打印结果
         println("count="+count)
        sc.stop()
      }
    }

    编译代码,直接Build->Make Project 
    这里写图片描述
    然后编程运行参数,Run->Edit Configurations 
    这里写图片描述
    Main Class输入:SparkWordCount 
    Program arguments输入:/hadoopLearning/spark-1.5.0-bin-hadoop2.4/README.md 
    如下图: 
    这里写图片描述

    完成后直接Run->Run或Alt+Shift+F10运行程序,执行结果如下图: 
    这里写图片描述

    (2) Spark集群上执行Spark WordCount程序

    将SparkWordCount打包成Jar文件

    将程序内容修改如下:

    import org.apache.spark.SparkContext._
    import org.apache.spark.{SparkConf, SparkContext}
    
    object SparkWordCount{
      def main(args: Array[String]) {
        //输入文件既可以是本地linux系统文件,也可以是其它来源文件,例如HDFS
        if (args.length == 0) {
          System.err.println("Usage: SparkWordCount <inputfile> <outputfile>")
          System.exit(1)
        }
        //提交集群时,本地线程不起作用
        val conf = new SparkConf().setAppName("SparkWordCount").setMaster("local")
        val sc = new SparkContext(conf)
    
        //rdd2为所有包含Spark的行
        val rdd2=sc.textFile(args(0)).filter(line => line.contains("Spark"))
        //保存内容,在例子中是保存在HDFS上
        rdd2.saveAsTextFile(args(1))
        sc.stop()
      }
    }

    点击工程SparkWordCount,然后按F4打个Project Structure并选择Artifacts,如下图 
    这里写图片描述
    选择Jar->form modules with dependencies,如下图 
    这里写图片描述
    进入下面的界面这里写图片描述
    在main class中,选择SparkWordCount,如下图 
    这里写图片描述
    点击确定后得到如下界面 
    这里写图片描述

    因为后期提交到集群上运行,因此相关jar包都存在,为减小jar包的体积,将spark-assembly-1.5.0-hadoop2.4.0.jar等jar包删除即可,如下图 
    这里写图片描述
    确定后,再点击Build->Build Artifacts 
    这里写图片描述
    生成后的jar文件保存在root@sparkmaster:~/IdeaProjects/SparkWordCount/out/artifacts/SparkWordCount_jar# 目录中,如下图: 
    这里写图片描述

    提交集群运行

    ./spark-submit --master spark://sparkmaster:7077 --class SparkWordCount 
    --executor-memory 1g 
    /root/IdeaProjects/SparkWordCount/out/artifacts/SparkWordCount_jar/SparkWordCount.jar 
    hdfs://ns1/README.md 
    hdfs://ns1/SparkWordCountResult

    这里写图片描述

    执行结果: 
    这里写图片描述

    HDFS文件已经生成了SparkWordCountResult 
    这里写图片描述

    使用

    root@sparkmaster:/hadoopLearning/spark-1.5.0-bin-hadoop2.4/bin# hadoop dfs -ls 

    /SparkWordCountResult

     

    root@sparkmaster:/hadoopLearning/spark-1.5.0-bin-hadoop2.4/bin# hadoop dfs -cat 

    /SparkWordCountResult/part-00000

     

    查看目录内容,具体结果如下图所示:

    这里写图片描述





    我的github: https://github.com/zhoudayang
  • 相关阅读:
    FFmpeg简单使用:解封装 ---- 基本流程
    SDL播放PCM音频数据
    JDK8时间新API-2
    RocketMq延时队列的实现原理
    Kibana复杂查询语句
    Es基础api
    Redis sscan命令
    如何实现分布式的延时队列
    客户端从broker拉取的messagequeue的样子
    RocketMq多个consumerQueue长什么样子
  • 原文地址:https://www.cnblogs.com/zhoudayang/p/5007770.html
Copyright © 2011-2022 走看看