zoukankan      html  css  js  c++  java
  • Spark快速入门(1)

    1 安装Spark

    首先,到 https://spark.apache.org/downloads.html 选择最新的 Spark 版本和 Hadoop 版本(实际上我们暂时用不上 Hadoop,所以任何版本都行),然后下载压缩包。 

    完毕后,将其中的文件夹解压到某个特定的位置,比如,我将解压出的文件夹命名为spark,并放在我的主文件夹 /home/qyx 里,这样我就可以执行

    /home/qyx/spark/bin/spark-shell

    来运行 Spark 的终端了。为了避免每次打开 Spark 都要输入很长一串的路径,可以将 Spark 的 bin 目录加入到系统路径中,例如我在 ~/.bashrc 文件中写入了

    export PATH=$PATH:/home/qyx/spark/bin

    Mac下环境变量配置见 http://www.cnblogs.com/yxzfscg/p/4993185.html

    于是安装过程就这么愉快地结束了。

    2 安装sbt

    Mac上可以直接使用 brew install sbt

    3 简单的测试例子

    /* SimpleApp.scala */
    import org.apache.spark.SparkContext
    import org.apache.spark.SparkContext._
    import org.apache.spark.SparkConf
    object SimpleApp {
      def main(args: Array[String]) {
        val logFile = "YOUR_SPARK_HOME/README.md" // Should be some file on your system
        val conf = new SparkConf().setAppName("Simple Application")
        val sc = new SparkContext(conf)
        val logData = sc.textFile(logFile, 2).cache()
        val numAs = logData.filter(line => line.contains("a")).count()
        val numBs = logData.filter(line => line.contains("b")).count()
        println("Lines with a: %s, Lines with b: %s".format(numAs, numBs))
      }
    }
    

    4 sbt的打包文件

    name := "Simple Project"
    version := "1.0"
    scalaVersion := "2.11.5"
    libraryDependencies += "org.apache.spark" %% "spark-core" % "1.4.0"
    

    5 为了保证sbt工作正常,我们需要将SimpleApp.scala和simple.sbt放入典型的sbt项目布局的文件夹中。 如此一来我们将应用代码可以打包成一个jar文件, 然后使用spark-submit脚本来运行此程序。

    # Your directory layout should look like this
    $ find .
    .
    ./simple.sbt
    ./src
    ./src/main
    ./src/main/scala
    ./src/main/scala/SimpleApp.scala
    # Package a jar containing your application
    $ sbt package
    ...
    $ YOUR_SPARK_HOME/bin/spark-submit --class "SimpleApp" --master local[4] target/scala-2.10/simple-project_2.10-1.0.jar ...

    http://spark.apache.org/docs/latest/quick-start.html  

  • 相关阅读:
    关于SQL Server将一列的多行内容拼接成一行的问题讨论
    Win7 disk.sys无法加载的问题
    mvel2.0语法指南
    让网页不被缓存的解决办法
    让html页面不缓存js的实现方法
    mysql中间件研究(tddl atlas cobar sharding-jdbc)
    jdk环境变量设置理解
    the import cannot be resolved
    Oracle解除表锁定问题
    windows系统中软件开发常用的软件
  • 原文地址:https://www.cnblogs.com/yxzfscg/p/4990049.html
Copyright © 2011-2022 走看看