zoukankan      html  css  js  c++  java
  • 在CentOS上安装并运行SparkR

    环境配置——

    • 操作系统:CentOS 6.5
    • JDK版本:1.7.0_67
    • Hadoop集群版本:CDH 5.3.0

    安装过程——

    1、安装R

    yum install -y R

    2、安装curl-devel(非常重要!否则无法进行RCurl包的安装,进而无法安装devtools

    yum install -y curl-devel

    3、设置必要的环境变量(非常重要!这里必须设置成Hadoop环境对应的版本和Yarn对应的版本,否则用Spark与Hadoop HDFS数据通信会报Hadoop 连接器版本不匹配

    vi + /etc/profile
    
    ...
    export USE_YARN=1
    export SPARK_VERSION=1.1.0
    export SPARK_YARN_VERSION=2.5.0-cdh5.3.0
    export SPARK_HADOOP_VERSION=2.5.0-cdh5.3.0

    4、进入R命令行,安装R包(最后一步安装SparkR时,需要安装很多依赖包,过程很漫长,可能需要重试多次才能成功)

    install.packages("RCurl")
    install.packages("devtools")
    library(devtools)
    install_github("amplab-extras/SparkR-pkg", subdir="pkg")

    5、大功告成,安装完毕!现在用SparkR读取HDFS中的文件:

    library(SparkR)
    sc <- sparkR.init(master = "local", "RwordCount")
    lines <- textFile(sc, "hdfs://quickstart.cloudera:8020/test/test.txt")
    words <- flatMap(lines, function(line) {
        strsplit(line, " ")[[1]]
    })
    wordCount <- lapply(words, function(word) {
        list(word, 1L)
    })
    counts <- reduceByKey(wordCount, "+", 2L)
    output <- collect(counts)
    for (count in output) {
        cat(count[[1]], ": ", count[[2]], "
    ")
    }

    参考资料:

  • 相关阅读:
    关于HTML面试题汇总之H5
    HTML5的页面资源预加载技术(Link prefetch)加速页面加载
    linux下搭建SVN服务器完全手册
    HTML5标签学习
    22个HTML5的初级技巧
    h5 audio播放音频文件
    html5适应屏幕的方案
    富文本编辑器的使用
    Array.prototype.filter()
    安装谷歌助手教程
  • 原文地址:https://www.cnblogs.com/sourceforge/p/Install-and-Run-SparkR-on-CentOS.html
Copyright © 2011-2022 走看看