zoukankan      html  css  js  c++  java
  • FOUR spark-shell 交互式编程

     编写独立应用程序实现数据去重
     
     
    目录为/usr/local/spark/mycode/remdup,在当前目录下新建一个目录
    mkdir -p src/main/scala,然后在目录/usr/local/spark/mycode/remdup/src/main/scala 下新建一个
    remdup.scala,
    import org.apache.spark.SparkContext
    import org.apache.spark.SparkContext._
    import org.apache.spark.SparkConf
    import org.apache.spark.HashPartitioner
    object RemDup {
     def main(args: Array[String]) {
     val conf = new SparkConf().setAppName("RemDup")
     val sc = new SparkContext(conf)
     val dataFile = "file:///home/charles/data"
     val data = sc.textFile(dataFile,2)
     val res = data.filter(_.trim().length>0).map(line=>(line.trim,"")).partitionBy(new 
    HashPartitioner(1)).groupByKey().sortByKey().keys
     res.saveAsTextFile("result")
     } }
    

      

    在目录/usr/local/spark/mycode/remdup 目录下新建 simple.sbt,
    name := "Simple Project"
    version := "1.0"
    scalaVersion := "2.11.8"
    libraryDependencies += "org.apache.spark" %% "spark-core" % "2.1.0"
    

      

    在目录/usr/local/spark/mycode/remdup 下执行下面命令打包程序
    $ sudo /usr/local/sbt/sbt package
    

      

    最后在目录/usr/local/spark/mycode/remdup 下执行下面命令提交程序
    $ /usr/local/spark2.0.0/bin/spark-submit --class "RemDup" 
    /usr/local/spark2.0.0/mycode/remdup/target/scala-2.11/simple-project_2.11-1.0.jar
    

      

    在目录/usr/local/spark/mycode/remdup/result 下即可得到结果文件。
  • 相关阅读:
    P1227 【[JSOI2008]完美的对称】
    Hive使用Calcite CBO优化流程及SQL优化实战
    深入浅出Calcite与SQL CBO(Cost-Based Optimizer)优化
    神奇的传送门
    怎么设计一个秒杀系统
    我的收藏
    Redis 客户端 Jedis、lettuce 和 Redisson 对比
    Redis 的完整安装过程
    Redis GEO 功能使用场景
    Redis 传送门
  • 原文地址:https://www.cnblogs.com/NCLONG/p/12261145.html
Copyright © 2011-2022 走看看