zoukankan      html  css  js  c++  java
  • Spark API编程动手实战-05-spark文件操作和debug

    这次 我们以指定executor-memory参数的方式来启动spark-shell:



    启动成功了


    在命令行中我们指定了spark-shell运行暂用的每个机器上的executor的内存为1g大小,启动成功后参看web页面:



    从hdfs上读取文件:



    在命令行中返回的MappedRDD,使用toDebugString,可以查看其lineage的关系:


    可以看出MappedRDD是从HadoopRDD转换而来的

    再看下textFile的源代码:



    hadoopFile这个方法返回的是一个HadoopRDD,源码如下所示:



    而map方法产生的是一个MappedRDD:



    下面进行一个简单的wordcount操作:


    执行结果:


    再次使用toDebugString,查看下依赖关系:


    HadoopRDD -> MappedRDD -> FlatMappedRDD ->  MappedRDD -> ShuffledRDD 

    版权声明:本文为博主原创文章,未经博主允许不得转载。

  • 相关阅读:
    HttpWebRequest后台读取网页类
    MD5加密方法
    Base64封装类
    3DES封装类
    C#操作XML类
    XML_Qt_资料
    XML_CPP_资料
    h.264_javascript_资料
    ffmpeg_资料_01
    QWebEngineView_简单例子_01
  • 原文地址:https://www.cnblogs.com/stark-summer/p/4829802.html
Copyright © 2011-2022 走看看