zoukankan      html  css  js  c++  java
  • Spark 问题总结 (一)

    1. Spark是什么?

    •  Spark是一个并行数据处理框架。它允许开发快速、统一的大数据应用程序,将批处理、流处理和交互分析结合起来。

    2. RDD是什么?

    •  Spark的主要核心抽象称为弹性分布式数据集。RDD是满足这些属性的分区数据的集合。不可变、分布式、延迟计算、可捕获是常见的RDD属性。

    3. Immutable 是什么?

    • RDD 一旦创建并赋值,就不可能更改,这个属性称为不变性。Spark在默认情况下是不可变的,它不允许更新和修改。但 可以转换成新的RDD。

    4. Spark 内存计算?

    • 将所有数据保存在内存中进行计算,而不是保存到磁盘中。因此Spark捕捉数据的速度比Hadoop快100倍。(可配置)

    5. Spark engine 的职责?

    • Spark负责跨集群调度、分发和监视应用程序。

    6. 常见的Spark生态系统?

    • Spark SQL
    • Spark streaming
    • 机器学习算法的MLLib
    • GraphX用于图形计算

    7. 分区是什么?

    •  分区是数据的逻辑划分,这一思想源于Map-reduce (split)。专门为处理数据而派生的逻辑数据。小块数据也可以支持可伸缩性并加快处理速度。输入数据、中间数据和输出数据都是分区的RDD。

    8. spark如何对数据进行分区?

    • Spark使用map-reduce API对数据进行分区。在输入格式中,我们可以创建多个分区。在默认情况下,HDFS块大小是分区大小(为了获得最佳性能),但它“可以像Split那样更改分区大小”。

    9. Spark如何存储数据?

    •  Spark是一个处理引擎,没有存储引擎。它可以从任何存储引擎(如HDFS、S3和其他数据资源)检索数据。

    10 .什么是SparkCore?

    •  SparkCore是apache spark framework的一个基础引擎。内存管理、故障诊断、调度和监视作业以及与存储系统的交互是Spark的主要功能。

    11. SparkSQL与HQL和SQL有何不同?

    •  SparkSQL是sparkCore引擎上的一个特殊组件,它支持SQL和HiveQueryLanguage而不改变任何语法。可以连接SQL表和HQL表。

    12. 我们什么时候使用SPARK STREAMING?

    • Spark流是一种实时处理流数据的API。Spark流从不同的资源收集流数据,如web服务器日志文件、社交媒体数据、股票市场数据或Hadoop生态系统,如Flume和Kafka。

    13. Spark流API如何工作?

    • 程序员在配置中设置一个特定的时间,在这个时间内有多少数据进入Spark,该数据作为批处理进行分离。
    • 输入流(DStream)进入spark流, 被框架分解成分批的小块,然后送入spark引擎进行处理。
    • Spark Streaming API将批量数据传递给核心引擎。核心引擎可以以流分批的形式生成最终结果。输出也采用batch的形式。

     

    14. spark中的变换是什么?

    • Spark在RDDs上提供了两种特殊的操作,称为转换和操作。
    • 转换遵循惰性操作并临时保存数据,直到调用该操作。
    • 每个转换生成/返回新的RDD。
    • 转换示例:Map、flatMap、groupByKey、reduceByKey、filter、co-group、join、sortByKey、Union、distinct、sample都是常见的spark转换。

     

    15. Action作用是什么? 

    • 操作是RDD的操作,该值返回到spar驱动程序,
    • 该程序启动在集群上执行的作业-lazy 的 trigger。
    • 转换的输出是动作的输入。
    • reduce, collect, take采样,take, first, saveAsTextfile, saveAsSequenceFile, countByKey, foreach是Apache spark中常见的操作。

    16. 什么是RDD lineage?

    • Lineage 是一个重建丢失分区的RDD进程。
    • Spark不会在内存中复制数据,如果数据丢失,Rdd会使用lineage来重建丢失的数据。
    • 每个RDD都记得如何从其他数据集构建RDD。

    17.Spark中的Map和flatMap是什么?

    •  Map是处理数据的特定行或行。
    • 在FlatMap中,每个输入项都可以映射到多个输出项(因此函数应该返回一个Seq,而不是单个项)。最常用来返回数组元素。

    18.什么是广播变量?

    •  广播变量允许程序员在每台机器上保持一个缓存的只读变量,而不是将其副本与任务一起发送。
    • Spark支持两种类型的共享变量,称为广播变量(如Hadoop分布式缓存)和累加器(如Hadoop计数器)。
    • 广播变量存储为数组缓冲区,它向工作节点发送只读值。

    19. Accumulator是什么?

    •  Spark accumulator类似于Hadoop计数器,可以计算事件的数量和作业期间发生的事情。
    • 只有驱动程序可以读取累加器值。
     
     
     
     
     
     
  • 相关阅读:
    SQL Server 2008登录错误:无法连接到(local)解决方法
    HTML5 学习
    DNS服务器的配置与管理
    如何把TOMCAT 添加到服务中自动启动
    如何获取WIN10 Program Files 文件夹下的文件操作权限
    Oracle PL/SQL入门语法点
    【Oracle XE系列之三】使用OMF方式手工创建Oracle XE数据库
    【Oracle XE系列之二】PLSQL Developer 远程连接Oracle XE数据库
    【Oracle XE系列之一】Windows10_X64环境 安装Oracle XE11gR2 X64数据库
    Spark 调优
  • 原文地址:https://www.cnblogs.com/yjyyjy/p/12869183.html
Copyright © 2011-2022 走看看