Hadoop——MapReduce - 走看看

zoukankan html css js c++ java

Hadoop——MapReduce

序言

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"，是典型的“分而治之”的思想。

MapReduce产生背景

　　如果让你统计日志里面的出现的某个URL的总次数，让你自己去写个单机版的程序，写个逻辑：无非就是读这个文件一行,然后把那个地方截取出来，截取出来之后，然后可以把它放到一个HashMap里面，用Map去重，看到一条新的URL ,就把它put进去，然后+1，如果下次看到再有就直接+1,没有就put进去，单机版的话逻辑是很好实现，但是数据量一大，你觉得单机版本还能搞定吗？
　　首先2T的文件，你放在单机上可能存不下来，如果再他多一点呢？比如几千个文件，几十个T，单机存都存不下，那么存在哪里-------hdfs上。
　　因为放在HDFS上可以放很多很多，比如说HDFS上有100个节点，每个节点上能耐挂载8T的硬盘，那就有800T，800T，你每个文件存3个副本的话，你至少也能存100多个T文件，耗费了大概6个T的空间，但是你一旦放到HDFS上就有一个问题：你的文件就会被切散了，被切三到很多的机器上，这个时候，你再对它们进行统计，这个时候，按照原来的逻辑，会不会出现问题？

资料

MapReduce介绍

查看全文

相关阅读:
hdu 1392 fzu 1333 Surround the Trees 简单凸包
 STL的应用 multiset bitset next_permutation
hdu 3711 Binary Number 位运算(^ 与&)的应用
 鸽舍原理
 hdu 4002 Find the maximum 2011 大连网络赛 1002 Find the maximum
组合数学
 Delphi程序破解技术概要
 NET的URL怎么静态化?
David I谈Delphi的现状及未来发展方向
 使用Dede破解Delphi软件实战

原文地址：https://www.cnblogs.com/cnki/p/12348740.html

Copyright © 2011-2022 走看看