Day3-spark基本认识 - 走看看

zoukankan html css js c++ java

Day3-spark基本认识

1.Spark 是类Hadoop MapReduce的通用并行框架, 专门用于大数据量下的迭代式计算.

是为了跟 Hadoop 配合而开发出来的,不是为了取代 Hadoop,

Spark 运算比 Hadoop 的 MapReduce 框架快的原因：是因为 Hadoop 在一次 MapReduce 运算之后,会将数据的运算结果从内存写入到磁盘中,第二次 Mapredue 运算时在从磁盘中读取数据,

所以其瓶颈在2次运算间的多余 IO 消耗.

Spark 则是将数据一直缓存在内存中,直到计算得到最后的结果,再将结果写入到磁盘,

所以多次运算的情况下, Spark 是比较快的. 其优化了迭代式工作负载

2.RDD(Resilent Distributed Datasets)俗称弹性分布式数据集,是 Spark 底层的分布式存储的数据结构,可以说是 Spark 的核心, Spark API 的所有操作都是基于 RDD 的. 数据不只存储在一台机器上,而是分布在多台机器上,实现数据计算的并行化.弹性表明数据丢失时,可以进行重建

查看全文

相关阅读:
FreeMark教程
 Intellij IDEA 创建Web项目并在Tomcat中部署运行
 catalina.home和catalina.base这两个属性的作用
 如何用javac 和java 编译运行整个Java工程
 Java中Properties类的操作
 注册邮箱验证激活技术
 commons-logging的使用
 Windows下安装GDB
BM算法
 Intellij IDEA 部署项目在tomcat 原理

原文地址：https://www.cnblogs.com/1983185414xpl/p/12249968.html

Copyright © 2011-2022 走看看