Apache Spark技术实战之5 -- SparkR的安装及使用

zoukankan html css js c++ java

Apache Spark技术实战之5 -- SparkR的安装及使用
欢迎转载，转载请注明出处，徽沪一郎。

概要

根据论坛上的信息，在Sparkrelease计划中，在Spark 1.3中有将SparkR纳入到发行版的可能。本文就提前展示一下如何安装及使用SparkR.

SparkR的出现解决了R语言中无法级联扩展的难题，同时也极大的丰富了Spark在机器学习方面能够使用的Lib库。SparkR和Spark MLLIB将共同构建出Spark在机器学习方面的优势地位。

使用SparkR能让用户同时使用Spark RDD提供的丰富Api，也可以调用R语言中丰富的Lib库。

安装SparkR

先决条件
1. 已经安装好openjdk 7
2. 安装好了R
安装步骤：

步骤1：运行R Shell
```
bash# R
```
步骤2：在R shell中安装rJava
```
install.packages("rJava")
```
步骤3: 在R shell中安装devtools
```
install.packages("devtools")
```
步骤4: 安装好rJava及devtools，接下来安装SparkR
```
library(devtools)
install_github("amplab-extras/SparkR-pkg", subdir="pkg")
```
使用SparkR来运行wordcount

安装完SparkR之后，可以用wordcount来检验安装正确与否。

步骤1：在R shell中加载SparkR
```
library(SparkR)
```
步骤2：初始化SparkContext及执行wordcount
```
sc <- sparkR.init(master="local", "RwordCount")
lines <- textFile(sc, "README.md")
words <- flatMap(lines,
	function(line) {
		strsplit(line, " ")[[1]]
	})
wordCount <- lapply(words, function(word) { list(word, 1L) })

counts <- reduceByKey(wordCount, "+", 2L)
output <- collect(counts)
for (wordcount in output) {
	cat(wordcount[[1]], ": ", wordcount[[2]], "
")
}
```
如果想将SparkR运行于集群环境中，只需要将master=local，换成spark集群的监听地址即可

小结

时间匆忙，还有两件事情没有来得及细细分析。
1. SparkR的代码实现
2. 如果很好的将R中支持的数据挖掘算法与Spark并行化处理能力很好的结合
参考资料
1. https://github.com/amplab-extras/SparkR-pkg
查看全文

相关阅读:
超链接标签的CSS伪类link,visited,hover,active
CSS系列(8) CSS后代选择器和子选择器详解
 CSS系列（7）CSS类选择器Class详解
 CSS系列(6) CSS通配符详解
 CSS系列(5)-如何使用Firebug查看网页的html和css
我给女朋友讲编程CSS系列(4) CSS盒子模型
 两次理发感悟到的人生
 我给女朋友讲编程CSS系列(3) CSS如何设置字体的类型、大小、颜色，如何使用火狐浏览器的Firebug插件查看网页的字体
 SSH不允许进行DNS解析
 项目发布平台

原文地址：https://www.cnblogs.com/hseagle/p/3998853.html

Apache Spark技术实战之5 -- SparkR的安装及使用

概要

安装SparkR

使用SparkR来运行wordcount

小结

参考资料