zoukankan      html  css  js  c++  java
  • Spark 开发环境搭建

    1.创建maven工程

    创建project--Java

    创建module--maven

    2.添加依赖

    <dependencies>
        <!--spark依赖-->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.3.0</version>
        </dependency>
        <!--scala依赖-->
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>2.11.8</version>
        </dependency>
        <!--Hadoop  依赖-->
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>2.7.3</version>
        </dependency>
    
    </dependencies>

    3.添加scala支持

    选择scala 2.11 版本

    4.编写spark代码--测试WordCount

    package com.sparkcore
    
    import org.apache.spark.{SparkConf, SparkContext}
    
    object WordCount {
    
        def main(args: Array[String]): Unit = {
          //第一步:创建sparkConf
          val conf = new SparkConf()
            //设置spark的运行模式:本地模式(用来测试),standalone(spark集群模式),yarn,Mesos,k8s
            //通常情况下:用本地模式测试(开发环境),用yarn部署(生产环境)
            //从spark2.3版本起支持k8s模式,未来spark程序大多会运行在k8s集群上
            //本地模式:local[x];x=1,代表启动一个线程,
            // X=2代表启动两个线程,x=* 代表启动跟所在机器cpu核数相等的线程数
            //注意:不能使用local[1],原因:spark本地模式是通过多线程来模拟分布式运行
            .setMaster("local[*]").setAppName("wordcount")
          //第二步:创建sparkContext
          val sc = new SparkContext(conf)
    
          //第三步:通过sparkcontext读取数据,生成rdd
          //4:尽可能与CPU核数对应
          val rdd=sc.textFile("d:\test\01.txt",4)
          //path:代表文件存储路径 minPartitions:最小分区数
          //分区是spark进行并行计算的基础
          println(rdd)
          //第四步:把rdd作为一个集合,进行各种运算
    
          rdd.map(line=>line.split(" ")).groupBy(x=>x)
            .map(kv=>(kv._1,kv._2.size))
            .collect().foreach(println)
    
        }
    }
    
    

    总结:

    Application: 利用sparkApi进行的计算

    Submit:提交,把写好的spark应用提交给executor执行

    Executor:就是运行spark任务的机器的代称

    Jetty:web服务器(区别于tomcat,轻量级,可做嵌入式开发)

    DAG:有向无环图

    在计算机中图是一种数据结构:由边和顶点组成,其中边用来表示关系,顶点用来表示单位(数据)

    在spark中用DAG来表示计算任务。

    有向是为了表示计算任务是有步骤的,是有先后顺序的。

    无环:用来表示任务不会反复执行,避免死循环

    DAGScheduler:用来调度任务的一个线程

    Stage:表示spark任务运行的一个阶段,spark任务可能有一个或多个stage.  stage划分的标准是:shuffle(归并排序)

    Task:一个分区的一个sparkAPI调用过程就是task

    Shuffle:过程就是把相同的key放在同一个分区,就是算一个task。

    Shuffle:形成宽依赖的过程叫shuffle:典型的如:group

    ,join,distinct。

    窄依赖:子rdd的一个分区依赖与父rdd的一个分区;典型的操作有:map,flatMap,filter…

    宽依赖:子rdd的一个分区依赖与父rdd的多个分区

    Appilication(job)可能多个stage,一个stage可能多个task

  • 相关阅读:
    get_folder_size.ps1
    python3-database-shelve
    Windows中实现不依赖账户登录的开机启动程序
    SpringBoot+SpringDataJPA如何实现自定义且自由度高的查询[多表,多查询条件,多排序条件,分页,自定义sql封装]
    Windows phone 8.1之数据绑定(Data Binding)
    TextBox使用技巧--转载
    在Eclipse中使用git把项目导入到git中--转载
    运用多种知识点实现一个综合小游戏
    Git帮助之初始化项目设置向导
    如何从Eclipse导入github上的项目源码--转载
  • 原文地址:https://www.cnblogs.com/pigdata/p/10305574.html
Copyright © 2011-2022 走看看