spark 源码安装

zoukankan html css js c++ java

spark 源码安装
clone 源码

git clone git://github.com/apache/spark.git

maven编译源码

国外镜像比较慢，此处修改maven仓库的镜像为阿里云镜像：
<mirrors> <mirror> <id>alimaven</id> <name>aliyun maven</name> <url>http://maven.aliyun.com/nexus/content/groups/public/</url> <mirrorOf>central</mirrorOf> </mirror> </mirrors>
编译的时候内存设置大一点，以免内存溢出，导致编译失败，此处设置maven内存如下：
export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"
mvn -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.3 -DskipTests clean package

-Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.3 参考下面的链接：

https://spark.apache.org/docs/latest/building-spark.html#specifying-the-hadoop-version

-D系统参数，-P profile定义

查看hadoop版本：./hadoop version 或者 ./hdfs version

测试编译
./bin/run-example SparkPi 10
结果如下则编译没问题：

spark在yarn集群上的运行

注：spark在yarn上运行时不需要启动spark集群的，因为，spark任务是在yarn集群上运行的

在yarn上运行spark应用程序有两种方式，第一种是 cluster模式，第二种是client模式，

区别是cluster模式Spark driver运行在yarn集群上，client模式Spark driver运行在客户端进程中。

使用./bin/spark-submit向yarn集群提交spark应用，
$ ./bin/spark-submit --class path.to.your.Class --master yarn --deploy-mode cluster [options] <app jar> [app options]
--class：主类

--master：yarn指定在yarn上运行

--deploy-mode：部署模式cluster 指定为集群模式

app jar：应用程序打的jar包

应用实例：
./bin/spark-submit --class spark.examples.wordcount.WordCount --master yarn --deploy-mode cluster wordcount.jar README.md　
注：运行前请确保yarn的安装时正确的，结果可以在日志文件里面看到

客户端模式如下：
./bin/spark-shell --master yarn --deploy-mode client
./bin/spark-shell --class spark.examples.wordcount.WordCount --master yarn --deploy-mode client --jars wordcount.jar README.md
　　
查看全文

相关阅读:
Office相关
 Eclipse常用设置
 Google logos 纪念电吉他大师莱斯·保罗(LesPaul)演示
 强烈推荐SQL Prompt 3.8，并发布SQL Prompt 3.8 ,SQL Refator 的xxx
C#命令行编辑器csc.exe
JSP中文乱码问题页面经过过滤器后得到的是中文，但插入到MYSQL数据库却成了“？”为什么？
(转贴)来谈谈SQL数据库中"简单的"SELECT TOP—可能有你从未注意到的细节
 C#Winform限制Textbox只能输入数字
 VPC2007虚拟机与主机的互连互通方法
 邮件会消亡是无稽之谈

原文地址：https://www.cnblogs.com/heml/p/6124819.html

spark 源码安装

clone 源码

maven编译源码

测试编译

spark在yarn集群上的运行