zoukankan      html  css  js  c++  java
  • SparkCore基础(二)

    * SparkCore基础(二)

    继续探讨SparkCore,开门见山,不多废话。

    SparkApplication结构探讨

    包含关系:

    之前我们运行过很多App了,其实每一个App都包含若干个Job任务;

    而Job任务呢,一般都是由RDD的Action动作发出的eg:first、count、collect等等;

    一个Job任务包含多个Stage,各个Stage之间是互相依赖的,比如,第一个stage没有走完,是不会走第二个stage的,对于同一个stage,所有的task的业务逻辑相同,而处理的数据不同;

    一个Stage包含多个Task。

    运行构成:

    对于Spark Application的集群运行情况来讲,都有两个部分组成

    ** Driver:每个应用都有一个driver,在其中的main方法中实例化SparkContext,从而创建RDD,然后向Master或者ResourceManager申请资源来运行Executor,调度Job任务

    ** Executor:相当于MapReduce中的Map Task一样,是一个JVM进程,用于运行Task,以线程形式运行

     
     

    下面是Spark集群的一些概念简述:

     
     

    RDD进一步探讨

    RDD是什么:

    **  是一系列分区的数据集合,类似于Hadoop中的split

    ** 每个分区都可以应用某个函数去运算

    ** RDD之间具有依赖关系,例如,RDD1 转换为RDD2时,那么RDD2就依赖于RDD1

    ** 可以指定key-value形式的RDD的分区规则,比如hash

    ** RDD可以选择最优的读取数据的位置,比如:从内存读?从本地读?或者设置了多个副本,决定从哪个副本读数据是最优的。

    IDEA工具开发Spark

    Step1、创建一个Scala项目

     
     

    Step2、创建项目名称以及指定路径后直接Finish

     
     

    Step3、在File--Project Structure选项的Modules中创建目录结构如图,注意文件夹图标样式,main和test中的resources文件夹图标是有区别的

     
     

    Step4、在Libraries中点击加号导入Spark相关依赖Jar(这里我导入的Jar是CDH-Spark根目录下的lib目录下的Jar,这里不需要导入example相关Jar)

     
     

    Step5、将HDFS的两个配置文件拷入到resources目录下

     
     

    Step6、创建一个Scala-object,编写代码如下:

     
    运行即可

    IDEA打包SparkJar

    我们也可以使用IDEA打包编写好的SparkJar包然后使用spark-submit命令提交任务

    Step1、点击Artifacts标签后,点击加号,选择JAR-from modules from dependencies

     
     

    Step2、点击红框内容后,出现蓝框内容

     
     

    Step3、搞定后,删除掉关于Spark和Hadoop的相关依赖,打包自己的工程时,不需要将Spark和Hadoop的Jar也打包入你的工程里,这样会增加你的工程的体积(官方描述:The user's jar should never include Hadoop or Spark libraries, however, these will be added at runtime.),点击减号删除到如下所示:

     
     

    Step4、OK后,选择Build-Build Artifacts-Build,然后去对应目录下,拷贝出Build好的Jar到Linux,什么?不知道生成的Jar在哪?你看看上图中Output directory属性

    Step5、运行你的Jar

    $ bin/spark-submit --master spark://z01:7077 /home/z/Desktop/FirstSpark.jar

    Spark在Yarn上运行

    相关文档:http://spark.apache.org/docs/1.6.1/running-on-yarn.html

    运行Spark应用有两种模式:

    1、在Client端所在节点运行

    这种情况比较适用于调试应用程序,比如:

    Yarn:

    bin/spark-submit

    --master yarn

    --deploy-mode client

    /home/z/Desktop/FirstSpark.jar

    2、在Cluster中运行

    Yarn:

    $ bin/spark-submit

    --master yarn

    --deploy-mode cluster

    /home/z/Desktop/FirstSpark.jar

    以上两种模式的区别在于:

    Client模式:

    Spark App的Driver请求ResourceManager,产生一个ApplicationMaster,然后由ApplicationMaster向ResourceManager申请资源,ResourceManager分配Container给NodeManager,然后由NodeManager运行其上的Executor。

    Cluster模式:

    Driver运行节点即ApplicationMaster节点,后面的操作你懂得,跟Client模式差不多了。

    注意:spark-shell只能在client模式下运行,比如默认deploty-mode其实如下

    Standalone:

    $ bin/spark-shell --master spark://z01:7077 --deploy-mode client

    Spark的广播使用

    广播这个概念在不同的计算机领域中都有涉及,那么在Spark中,如果你想过滤掉一些特殊符号,在这样的情境中,就可以使用广播(不使用行不行?行!但消耗更多。)首先我们先上代码:

     
     

    代码中,注意红框部分,我们使用广播过滤掉了一些特殊字符的统计。如果不适用广播,意味着list特殊字符集合中的所有信息都需要拷贝到所有的数据分区中,如果使用了广播,只需要将数据广播到指定的Executor中即可。

    Spark中Maven项目的构建

    在构建项目时,可以选择使用mvn命令构建,当然也可以使用IDEA的可视化界面构建,那么我们下面分别探讨两种方式:

    方式一:环境-Linux(不推荐,当然也要看喜好)

    方式二:环境-Windows(推荐)

    Step1、打开IDEA工具,选择Create new project,选择Maven,点击Create from archetype,留意红框内容

     
     

    Step2、Next后,不必解释过多了吧?如图:

     
     

    Step3、选择你的Maven仓库地址,默认在.m2目录下,可以自己指定,稍后会自动下载相关依赖

     
     

    Step4、Next后,编辑项目的一些基本信息,finish即可,如图:

     
     

    Step5、打开pom.xml,配置一些后边课程我们可能会用到的依赖,剩下的目录配置等等,和之前的我们学过的一样

     
     

    Step6、最后完成时,你会发现导入的jar包在左边的External Libraries中看到如下内容

     
     

    最后,在刚创建好的Maven工程中写一个WordCount试试?:)

    * 总结

    学会这些基础操作后,可以进行更多的拓展,比如分析一下apache的日志?请参看官方完整案例。


    个人微博:http://weibo.com/seal13

    QQ大数据技术交流群(广告勿入):476966007



    作者:Z尽际
    链接:https://www.jianshu.com/p/ec5b8869f2f4
    來源:简书
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
  • 相关阅读:
    找不到"javax.servlet.annotation.WebServlet"解决方法
    Nginx SSL+tomcat集群,request.getScheme() 取到https正确的协议
    Fiddler抓包工具使用
    利用window.open如何绕过浏览器拦截机制
    暂时性死区TDZ理解与总结
    利用vue-meta管理头部标签
    async、await总结
    正则中1、2的理解,利用正则找出重复最多的字符
    Vue优化:常见会导致内存泄漏问题及优化
    vue自定义指令导致的内存泄漏问题解决
  • 原文地址:https://www.cnblogs.com/wzlbigdata/p/8277748.html
Copyright © 2011-2022 走看看