1.spark的wordcount解析

zoukankan html css js c++ java

1.spark的wordcount解析
一、Eclipse(scala IDE)开发local和cluster

（一）. 配置开发环境
1. 要在本地安装好java和scala。
  由于spark1.6需要scala 2.10.X版本的。推荐 2.10.4，java版本最好是1.8。所以提前我们要需要安装好java和scala并在环境变量中配置好。
2. 下载scala IDE for eclipse安装连接：http://scala-ide.org/download/sdk.html
  打开ide新建scala project
  点击file -> new ->Scala Project ,在弹出的对话框中弹性project name 为“WordCount”，默认点击next，点击finish的。
3. 修改Scala版本
  项目创建完成后默认使用的是scala的2.11.7 版本。要手动将版本换成2.10.X。在项目名称右击选择properties，在弹出窗口点击，scala Compiler，在右侧窗口，选中Use Project settings, 将scala Installation 修改为Latest 2.10 bundle(dynamic).点击apply，点击ok。scala版本变成2.10.6。
4. 找到依赖的spark jar文件并导入到eclipse中。
  所依赖的jar文件是
  spark-1.6.0-bin-hadoop2.6libspark-assembly-1.6.0-hadoop2.6.0.jar。
  在项目名称上右击，选择build path ->configure build path。在弹出框中点击library，点击右侧的addExternalJARs，然后选择
  park-assembly-1.6.0-hadoop2.6.0.jar点击打开，然后点击ok。
（二）、spark程序开发步骤

1. 在src下建立spark程序工程包

在src上右击new ->package 填入package的name为com.dt.spark。

2. 创建scala的入口类。

在包的名字上右击选择new ->scala class 。在弹出框中Name 中，在增加WordCount。点击finish。
在方法内部讲关键字class 改成object ，然后创建main方法。

3. local模式代码方法
查看全文

相关阅读:
软工第二次作业
 Internet: gmail on ubuntu
English: assign
Github: write blog by github
Linux: left shift key not working on ubuntu18.04
Using Doxygen to generate code documents
Cpp: object lifetime
Cpp: struct constructor
Cpp: pass by reference
HLS Stream Library

原文地址：https://www.cnblogs.com/yejibigdata/p/6513688.html

1.spark的wordcount解析

一、Eclipse(scala IDE)开发local和cluster

（一）. 配置开发环境

（二）、spark程序开发步骤

1. 在src下建立spark程序工程包

2. 创建scala的入口类。

3. local模式代码方法

4.编写Cluster模式代码

二、使用idea开发spark的Local和Cluster

（一）、配置开发环境

1. 要在本地安装好java和scala。

2. 下载IDEA 社区版本，选择windows 版本并按照配置。

3. 创建scala项目

4. 设置spark的jar 依赖。

(二)、编写代码

1. 在src下建立spark程序工程包

2. 创建scala的入口类。

3. 编写local代码

4. 编写Cluster模式代码

三、WordCount的java开发版本

1. 从数据流动视角解密WordCount

简单实验

Spark有三大特点：

查看在SparkContext.scala中的testFile源码

RDD.scala中的map源码

下面是FlatMap的源码（RDD.scala中）

reduceByKey的源码(PairRDDFunctions.scala中)：

下一步是shuffledRDD,

最后一步：保存数据到HDFS（MapPartitionsRDD）

saveAsTextFile的源码：

2. 从RDD依赖关系的视角解密WordCount。Spark中的一切操作皆RDD，后面的RDD对前面的RDD有依赖关系。

3. DAG与Lineage的思考。依赖关系会形成DAG。