zoukankan      html  css  js  c++  java
  • Hadoop起源

    本文来自Doug Cutting为《Hadoop权威指南》所作之序,感觉读一下还是挺有收获的。


    Hadoop 起源于Nutch项目。我们几个人有一段时间一直在尝试构建一个开源的Web搜索引擎,但始终无法有效地将计算任务分配到多台计算机上,即使就只是屈指可数的几台。直到谷歌发表的GFS和MapReduce的相关论文之后,我们的思路才清晰起来。他们设计的系统已经可以精准地解决我们在Nutch项目中面临的问题。于是,我们(两个半天工作制的人)开始着手尝试构建这些系统,将其作为Nutch的一部分。

    我们终于让Nutch在20台机器上得以平稳运行,但是又很快意识一点:要想应对大规模的Web数据计算,还必须得让Nutch能在几千台机器上运行,不过这个工作远远不是两个半天工作制开发人员能够搞定的。

    几乎就在那个时候,雅虎也对这项技术产生了浓厚的兴趣并迅速组建了一个开发团队。我有幸成为其中一员。我们剥离出Nutch的分布式计算模块,将其称为"Hadoop"。在雅虎的帮助下,Hadoop很快能够真正处理海量的Web数据了。


    结论:

    Hadoop的前身原来是为了Nutch而服务的,本质上是一个分布式的计算模块;

    灵感来源于谷歌的GFS和MapReduce;

    Hadoop是为了处理海量的数据;

    Hadoop的两个核心:一个是HDFS文件系统,另一个则是MapReduce计算框架;

    下一篇,快速拜读GFS和MapReduce的论文。

  • 相关阅读:
    [JZOJ3386] 守卫者的挑战
    [JZOJ3385] 黑魔法师之门
    [JZOJ3383] 太鼓达人
    [JZOJ3382] 七夕祭
    NOIP模拟测试on 2019.9.27
    数据结构测试2 on 2019.9.25
    数据结构测试1 on 2019.9.24
    P2047 [NOI2007]社交网络
    P2286 [HNOI2004]宠物收养场
    P1342 请柬 建反图+dijkstra
  • 原文地址:https://www.cnblogs.com/tuhooo/p/7755416.html
Copyright © 2011-2022 走看看