MapReduce深入 - 走看看

zoukankan html css js c++ java

MapReduce深入

hadoop中map和reduce都是进程（spark中是线程），map和reduce可以部署在同一个机器上也可以部署在不同机器上。

输入数据是hdfs的block，通过一个map函数把它转化为一个个键值对，并同时将这些键值对写入内存缓存区（100M），内存缓存区的数据每满80M就会将这80M数据写入磁盘，在写入磁盘的过程中会进行分区、排序。

把数据按键hash分区得到多个partition，保证同个键的数据落入同一个分区，partition数目一般和reduce数目一致（也可以是reduce数目的倍数）。

查看全文

相关阅读:
temp
JAVA 存储空间　寄存器　堆栈　堆…
数据类型、变量、数组类
 ubuntu ARP 防御
 详解 JAVA 创建对象 NEW
Eclipse常见问题集锦
 解决error：2014 Commands out of sync; you can't run this command now
关于MySql5“data too long for column”问题的探解
 Notepad++编辑Pyhton文件的自动缩进的问题（图文）
mysql 'latin1' codec can't encode characters的问题

原文地址：https://www.cnblogs.com/xumaomao/p/12609766.html

Copyright © 2011-2022 走看看