zoukankan      html  css  js  c++  java
  • 在CentOS上安装并运行SparkR

    环境配置——

    • 操作系统:CentOS 6.5
    • JDK版本:1.7.0_67
    • Hadoop集群版本:CDH 5.3.0

    安装过程——

    1、安装R

    yum install -y R

    2、安装curl-devel(非常重要!否则无法进行RCurl包的安装,进而无法安装devtools

    yum install -y curl-devel

    3、设置必要的环境变量(非常重要!这里必须设置成Hadoop环境对应的版本和Yarn对应的版本,否则用Spark与Hadoop HDFS数据通信会报Hadoop 连接器版本不匹配

    vi + /etc/profile
    
    ...
    export USE_YARN=1
    export SPARK_VERSION=1.1.0
    export SPARK_YARN_VERSION=2.5.0-cdh5.3.0
    export SPARK_HADOOP_VERSION=2.5.0-cdh5.3.0

    4、进入R命令行,安装R包(最后一步安装SparkR时,需要安装很多依赖包,过程很漫长,可能需要重试多次才能成功)

    install.packages("RCurl")
    install.packages("devtools")
    library(devtools)
    install_github("amplab-extras/SparkR-pkg", subdir="pkg")

    5、大功告成,安装完毕!现在用SparkR读取HDFS中的文件:

    library(SparkR)
    sc <- sparkR.init(master = "local", "RwordCount")
    lines <- textFile(sc, "hdfs://quickstart.cloudera:8020/test/test.txt")
    words <- flatMap(lines, function(line) {
        strsplit(line, " ")[[1]]
    })
    wordCount <- lapply(words, function(word) {
        list(word, 1L)
    })
    counts <- reduceByKey(wordCount, "+", 2L)
    output <- collect(counts)
    for (count in output) {
        cat(count[[1]], ": ", count[[2]], "
    ")
    }

    参考资料:

  • 相关阅读:
    CKA&CKAD考试
    进程线程和协程
    HTTP协议
    Centos操作系统启动流程
    高并发下的Linux内核参数优化
    DDoS防护系统建设的一些思路
    DDoS防护实现概述
    Nginx故障排查思路
    git常用指令集
    DNS实现粗粒度容灾
  • 原文地址:https://www.cnblogs.com/sourceforge/p/Install-and-Run-SparkR-on-CentOS.html
Copyright © 2011-2022 走看看