1. 下载scala并安装。版本为2.10.3。设置SCALA_HOME和PATH环境变量
2. 下载SPARK 0.9.0源代码并解压到/root/Downloads/spark-0.9.0-incubating
注意,也可以下载已经编译好的包。见:
但我们这里向研究一下代码的编译过程,所以直接下载源代码版本
3.到/root/Downloads/spark-0.9.0-incubating下运行./sbt/sbt assembly
在运行过程中出现一些问题,主要是maven repository和git的proxy的问题。主要是由于公司内外设置的原因。还有就是git协议识别的问题,可以收到将git clone git://xxx.yyy.zzz/mmm/nnn.git改为git clone http://xxx.yyy.zzz/mmm/nnn.git手动的执行以下,把需要的东西下载下来。再次运行即可
运行结束后在assembly/target/scala-2.10和example/target/scala-2.10/目录下分布有spark-assembly-0.9.0-incubating-hadoop2.2.0.jar和spark-examples-assembly-0.9.0-incubating.jar。
4.也可以用MAVE build.首先修改maven的环境变量
export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"
然后运行maven命令:
mvn -Pyarn -Dhadoop.version=2.2.0 -Dyarn.version=2.2.0 -DskipTests clean package