zoukankan      html  css  js  c++  java
  • 新闻实时分析系统 基于IDEA环境下的Spark2.X程序开发

    1.Windows开发环境配置与安装

    下载IDEA并安装,可以百度一下免费文档。

    2.IDEA Maven工程创建与配置

    1)配置maven

     

    2)新建Project项目

     

    3)选择maven骨架

     

    4)创建项目名称

     

    5)选择maven地址

     

    6)生成maven项目

     

    7)选择scala版本

     

    8)新建Java 和 scala目录

     

    9)编辑pom.xml文件

    a)地址一

    b)地址二

    3.开发Spark Application程序并进行本地测试

    1)idea编写WordCount程序

    package com.spark.test

    import org.apache.spark.{SparkConf, SparkContext}

    object MyScalaWordCout {

      def main(args: Array[String]): Unit = {

        //参数检查

        if (args.length < 2) {

          System.err.println("Usage: MyWordCout   ")

          System.exit(1)

        }

        //获取参数

        val input=args(0)

        val output=args(1)

        //创建scala版本的SparkContext

        val conf=new SparkConf().setAppName("myWordCount")

        val sc=new SparkContext(conf)

        //读取数据

        val lines=sc.textFile(input)

        //进行相关计算

        val resultRdd=lines.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)

        //保存结果

        resultRdd.saveAsTextFile(output)

        sc.stop()

      }

    }

    4.Spark Application程序打包

    1)项目打jar包,参考之前讲过的项目打包方式

    2)spark-submit方式提交作业

    bin/spark-submit --master local[2] /opt/jars/sparkStu.jar hdfs://bigdata-pro01.kfk.com:9000/user/data/stu.txt

  • 相关阅读:
    postgresql遇到的性能问题
    面试(三)
    Oracle的dmp文件的导入
    plsql的参数IN和OUT
    IT小说
    被关注应该也是一种强大-日经某文有感
    总结:安卓手机页面样式没问题,苹果手机样式错乱。
    前端开发人员要注意的css规范,css命名。
    水平,垂直居中的15种方法
    nuxt 的一些报错和插件推荐
  • 原文地址:https://www.cnblogs.com/misliu/p/11188976.html
Copyright © 2011-2022 走看看