前几天安装的sbt一直没有安装成功,只是把剩下的安装了很完成了实验一二,然后今天安装sbt安装了很久,一直下载失败,试了各种办法,后来发现是我spark的版本2.1.0查找不到,后来把spark版本换成了2.1.0的版本后在安装sbt就安装成功了,然后试了一下教程下面的例子,成功了,心态差点爆炸
- cat word.txt 查看文本内容
-
加载本地文件
- cd /usr/local/spark/mycode/wordcount
- cat word.txt
- scala> val textFile = sc.textFile("file:///usr/local/spark/mycode/wordcount/word.txt")
- scala> textFile.first()第一行内容
- //获取RDD文件textFile的第一行内容
- textFile.first()
- //获取RDD文件textFile所有项的计数
- textFile.count()
- //抽取含有“Spark”的行,返回一个新的RDD
- val lineWithSpark = textFile.filter(line => line.contains("Spark"))
- //统计新的RDD的行数
- lineWithSpark.count()
- //找出文本中每行的最多单词数
- textFile.map(line => line.split(" ").size).reduce((a, b) => if (a > b) a else b)
- 把textFile变量中的内容再次写回到另外一个文本文件wordback.txt中
- val textFile = sc.textFile("file:///usr/local/spark/mycode/wordcount/word.txt")
- textFile.saveAsTextFile("file:///usr/local/spark/mycode/wordcount/writeback")
-
词频统计
- scala> val textFile = sc.textFile("file:///usr/local/spark/mycode/wordcount/word.txt")
- scala> val wordCount = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b)
- scala> wordCount.collect()
-
编写独立应用程序执行词频统计
- cd /usr/local/spark/mycode/wordcount/
- mkdir -p src/main/scala //这里加入-p选项,可以一起创建src目录及其子目录