zoukankan      html  css  js  c++  java
  • Day3-spark基本认识

       1.Spark 是类Hadoop MapReduce的通用并行框架, 专门用于大数据量下的迭代式计算.

    是为了跟 Hadoop 配合而开发出来的,不是为了取代 Hadoop,

      Spark 运算比 Hadoop 的 MapReduce 框架快的原因:是因为 Hadoop 在一次 MapReduce 运算之后,会将数据的运算结果从内存写入到磁盘中,第二次 Mapredue 运算时在从磁盘中读取数据,

      所以其瓶颈在2次运算间的多余 IO 消耗.

      Spark 则是将数据一直缓存在内存中,直到计算得到最后的结果,再将结果写入到磁盘,

    所以多次运算的情况下, Spark 是比较快的. 其优化了迭代式工作负载

      2.RDD(Resilent Distributed Datasets)俗称弹性分布式数据集,是 Spark 底层的分布式存储的数据结构,可以说是 Spark 的核心, Spark API 的所有操作都是基于 RDD 的. 数据不只存储在一台机器上,而是分布在多台机器上,实现数据计算的并行化.弹性表明数据丢失时,可以进行重建

  • 相关阅读:
    第一次用python 写的简单爬虫 记录在自己的博客
    【转】使用notepad运行python
    Android Tools&Cmd
    箴言
    无问西东
    Unity存储路径
    手机屏幕亮度设定
    Go Lang
    iOS .tbd
    Prime31
  • 原文地址:https://www.cnblogs.com/1983185414xpl/p/12249968.html
Copyright © 2011-2022 走看看