8.Spark集群测试 - 走看看

zoukankan html css js c++ java

8.Spark集群测试

Spark集群测试

把Spark安装包下的”README.txt”上传到hdfs

通过hdfs的web控制台可以发现成功上传了文件：

启动Spark shell：

接下来通过以下命令读取刚刚上传到HDFS上的“README.md”文件：

val file = sc.textFile("hdfs://192.168.0.49:9000/dmy/README.md")

对读取的文件进行以下操作：

val count = file.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_)

接下来使用collect命令提交并执行Job：

count.collect

从控制台可以看到我们的程序成功在集群上运行.

使用Spark交互模式：

1. 运行./spark-shell.sh

2. scala> val data = Array(1, 2, 3, 4, 5) //产生data

data: Array[Int] = Array(1, 2, 3, 4, 5)

3. scala> val distData = sc.parallelize(data) //将data处理成RDD

distData: spark.RDD[Int] = spark.ParallelCollection@7a0ec850 （显示出的类型为RDD）

4. scala> distData.reduce(_+_) //在RDD上进行运算，对data里面元素进行加和

12/05/10 09:36:20 INFO spark.SparkContext: Starting job...

5. 最后运行得到

12/05/10 09:36:20 INFO spark.SparkContext: Job finished in 0.076729174 s

res2: Int = 15

查看全文

相关阅读:
在线教育02
HashMap如何解决取Value值为Null
Java+selenium 如何定位下拉框select
Java+selenium 如何下拉移动滚动条【实战】
Python创建第一个django应用
 如何在Pycharm中配置Python和Django(环境搭建篇)
selenium+iframe 如何定位元素（实战）
Java+Selenium 如何参数化验证Table表格数据
 如何实现一个字符的反转（Java）
Feature如何解决参数数量不匹配

原文地址：https://www.cnblogs.com/dmyu/p/4826525.html

热门文章
HDU1213
HDU1116图论
 HDU1232畅通工程
 欧拉路径Hrbust1351
推荐2
TTSR 纹理transformer超分辨率
 spark
推荐项目
 mybatis3
edvr笔记

Copyright © 2011-2022 走看看