hadoop 知识点总结 - 走看看

zoukankan html css js c++ java

hadoop 知识点总结

关于元数据的checkpoint

每隔一段时间，会由secondary namenode将namenode上积累的所有edits和一个最新的fsimage下载到本地，并加载到内存进行merge（这个过程称为checkpoint）

namenode和secondary namenode的工作目录存储结构完全相同，所以，当namenode故障退出需要重新恢复时，可以从secondary namenode的工作目录中将fsimage拷贝到namenode的工作目录，以恢复namenode的元数据

hdfs在生产应用中主要是客户端的开发，其核心步骤是从hdfs提供的api中构造一个HDFS的访问客户端对象，然后通过该客户端对象操作（增删改查）HDFS上的文件

Mapreduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架

集群运行模式

mapredue 程序 ====提交====》 yarn集群resourcemanager,分发到很多节点上并发执行

v mapreduce中，map阶段处理的数据如何传递给reduce阶段，是mapreduce框架中最关键的一个流程，这个流程就叫shuffle；

v shuffle: 洗牌、发牌——（核心机制：数据分区，排序，缓存）；

具体来说：就是将maptask输出的处理结果数据，分发给reducetask，并在分发的过程中，对数据按key进行了分区和排序

查看全文

相关阅读:
golang访问数据库
 dynamic与泛型
 新的published和$M+对比
 插入窗体到别的程序里
 淺談怎么样运用Delphi 2009地泛型容器類別
 Delphi随记
 查找文件
 Delphi操作xml
Delphi图像编程学习笔记
 Ext.net中如何上传文件

原文地址：https://www.cnblogs.com/toov5/p/7381577.html

Copyright © 2011-2022 走看看