寒假学习进度 - 走看看

zoukankan html css js c++ java

寒假学习进度
今天开始学习sqark，主要参考学习的是尚硅谷的sqark教程。

Spark 核心模块
1.在idea中添加scala

因为在idea中添加scala插件下载速度过慢，所以用离线添加

在idea官网插件库中下载scala :https://plugins.jetbrains.com/plugin/1347-scala

在plugins中添加scala插件

创建maven工程

添加下载scala2.12.11

添加依赖：

<dependencies>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.12</artifactId>
<version>3.0.0</version>
</dependency>
</dependencies>

创建一个scala类测试

用scala框架完成对文本中的单词统计

测试数据1.txt2.txt

代码：package com.chenghaixiang.core.wc

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.rdd.RDD

object spark01_wordcount {
def main(args: Array[String]): Unit = {

val sparkConf = new SparkConf().setMaster("local").setAppName("wordcount")
val sc : SparkContext = new SparkContext(sparkConf)

val lines: RDD[String]=sc.textFile("data")
val words: RDD[String] = lines.flatMap(_.split(" "))
val wordGroup: RDD[(String, Iterable[String])] = words.groupBy(word => word)
val wordtp=wordGroup.map{
case (word, list)=>{
(word,list.size)
}
}

val tuples: Array[(String, Int)] = wordtp.collect()
tuples.foreach(println)

sc.stop()
}
}
查看全文

相关阅读:
快考试了
 16号了
 终于找到网吧了，写写今天
 又打了一天的篮球
 (转载)Andoid2.X各字段意义
 (转载)AndroidMatrixCursor
(转载)非常好必须要顶
 (转载)Android Cursor之MergeCursor
七天开发安卓软件（二）
“Visual Studio.net已检测到指定的Web服务器运行的不是Asp.net1.1版。您将无法运行Asp.net Web应用程序或服务”问题的解决方法

原文地址：https://www.cnblogs.com/chenghaixiang/p/15717728.html

Copyright © 2011-2022 走看看