zoukankan      html  css  js  c++  java
  • 寒假学习进度

    今天开始学习sqark,主要参考学习的是尚硅谷的sqark教程。

    Spark 核心模块

     1.在idea中添加scala

    因为在idea中添加scala插件下载速度过慢,所以用离线添加

    在idea官网插件库中下载scala  :https://plugins.jetbrains.com/plugin/1347-scala

    在plugins中添加scala插件

    创建maven工程

    添加下载scala2.12.11

    添加依赖:

    <dependencies>
    <dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_2.12</artifactId>
    <version>3.0.0</version>
    </dependency>
    </dependencies>

     创建一个scala类测试

    用scala框架完成对文本中的单词统计

    测试数据1.txt2.txt

    代码:package com.chenghaixiang.core.wc

    import org.apache.spark.{SparkConf, SparkContext}
    import org.apache.spark.rdd.RDD



    object spark01_wordcount {
    def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf().setMaster("local").setAppName("wordcount")
    val sc : SparkContext = new SparkContext(sparkConf)

    val lines: RDD[String]=sc.textFile("data")
    val words: RDD[String] = lines.flatMap(_.split(" "))
    val wordGroup: RDD[(String, Iterable[String])] = words.groupBy(word => word)
    val wordtp=wordGroup.map{
    case (word, list)=>{
    (word,list.size)
    }
    }

    val tuples: Array[(String, Int)] = wordtp.collect()
    tuples.foreach(println)


    sc.stop()
    }
    }

  • 相关阅读:
    Ducking
    MINITAB(二)
    JFreechart
    linux命令0424
    JAVA哈哈镜
    HTML(四)
    The 3n+1 problem
    [转载]:【读书笔记】.NET本质论
    ER图基本步骤
    [从架构到设计]第一回:设计,应该多一点(转载)
  • 原文地址:https://www.cnblogs.com/chenghaixiang/p/15717728.html
Copyright © 2011-2022 走看看