MapReduce - 走看看

zoukankan html css js c++ java

MapReduce

MapReduce是一种用于数据处理的编程模型。该模型非常简单。

同一个程序Hadoop 可以运行用各种语言编写的MapRedue 程序。在本章中，我们将看到用 Java , Ruby ， Python 和 C++ 这些不同语言编写的不同版本。

最重要的是， MapReduce 程序本质上是并行的，因此可以将大规模的数据分析交给任何一个拥有足够多机器的运行商。

MapReduce 的优势在于处理大型数据集，所以下面首先来看一个例子。

使用 Hadoop 进行数据分析

为了更好地发挥 Hadoop 提供的并行处理机制的优势，我们必须把查询标识成 Map Reduce 作业。

经过一些本地的小规模测试，我们能够在机器集群上运行它。

map 和 reduce

MapReduce 的工作过程分为两个阶段： map 阶段和 reduce 阶段。

每个阶段都有键/值作为输入和输出，并且它们的类型可由程序员选择。程序员还具体定义了两个函数： map 函数和 reduce 函数。

我们在 map 阶段输入的是原始的 NCDC数据。我们选择的是一种文本输入格式，以便数据集的每一行都会是一个文本值。

键是在 文件开头部分文本行起始处的偏移量，但我们没有这方面的需求，所以将其忽略。

map 函数很简单。我们使用 map 函数来找出年份和气温，因为我们只对它们有兴趣。在本例中， map 函数只是一个数据准备阶段，

通过这种方式来建立数据，使得 reduce 函数能在此基础上进行工作：找出每年的最高气温。

map 函数也是很适合去除已损记录的地方：在这里，我们将筛选掉缺失的、不可靠的或错误的气温数据。

为了全面了解 map 的工作方式，我们思考下面几行示例的输入数据（）

这些行以键/值对的方式来表示 map 函数：

键是文件中的行偏移量，而这往往是我们在 map 函数中所忽视的。

map 函数的功能仅仅提取年份和气温（以粗体显示），并将其作为输出被发送。（气温值已被解释为整数）

map 函数的输出先由 MapReduce 框架处理，然后再被发送到 reduce 函数。

这一处理过程根据键/值对进行排序和分组。因此，继续我的示例，reduce 函数会到如下输入：

每年的年份后都有一系列气温读数。所有 reduce 函数现在必须重复这个列表并从中找出最大的读数：

这是最后的输出：全球气温纪录中每年的最高气温。

整个数据流如图 2-1 所示。在图的底部是 Unix 的管道，模拟整个 MapReduce的流程，其中的内容我们将在以后讨论 Hadoop 数据流时再次提到。

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　MapReduce 的逻辑数据流

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

查看全文

相关阅读:
vue+sass 下sass不能运行问题
 Servlet3.0的新特性
 Servlet监听器
 Servlet过滤器
 会话跟踪
 Servlet的应用
 Servlet概述
 《南怀瑾讲述99个人生道理》——刘清海编著
 Web应用程序简介
 JDBC学习总结(五)

原文地址：https://www.cnblogs.com/duffy/p/5371723.html