《Hadoop权威指南·大数据的存储与分析》阅读笔记（未读完） - 走看看

zoukankan html css js c++ java

《Hadoop权威指南·大数据的存储与分析》阅读笔记（未读完）

Hadoop基础知识：1.MapReduce 执行引擎

2.HDFS

3.Yarn

　　　　　　　　 4.Hadoop的I/O操作

Hadoop相关开源项目：1. Avro 数据格式

　　　　　　　　　　 2.Parquet

3.Flume 数据摄取

　　　　　　　　　　 4.Sqoop

5.Pig 数据处理

6.Hive

7.Cruch

8.Spark

9.Hbase 存储

10.Zookeeper 协作

Haoop相关开源项目：

8. Spark 大数据处理的集群计算框架

spark没有使用MapReduce作为执行引擎，而是使用自身的分布式运行环境在集群上执行工作

spark内最核心的概念是RDD，弹性分布式数据集，集群中跨多个机器分区存储的只读的对象集合（弹性：可以通过安排计算重新得到丢失的分区）

spark有延迟执行的机制，就是点那个加载RDD或者转换的时候并不会立即触发任何数据处理的操作，只不过是创建了一个计算的计划，只有当对RDD执行某个动作的时候才会真正执行。所以spark中的job与MapReduce中的job不同，Spark中的job是由多个阶段组成的一个有向无环图，每个阶段都相当于MapReduce中的Map或者Reduce，这些阶段会被分布在Spark内并行执行。

弹性分布式数据集RDD:

创建：来自内存中的对象集合；使用外部存储器中的数据集；现有RDD的转换

redis的持久化：

查看全文

相关阅读:
反正切函数atan与atan2的区别
 旋转变换（一）旋转矩阵
 最常用的三角函数值和三角变形公式
 关于齐次坐标的理解
 opencv Mat类型矩阵的变量值的方法
 何为南墙
 C#窗体之间传递参数
 C# 属性（Property）
C# 如何重写ToString函数及重写的意义
 vs2019 c# 台式电脑与笔记本电脑显示界面问题问题

原文地址：https://www.cnblogs.com/Flower-Z/p/10683460.html

Copyright © 2011-2022 走看看