zoukankan      html  css  js  c++  java
  • Google分布式计算框架 VS 开源实现版本Hadoop

    Google分布式计算框架的开源实现版本---hadoop

    hadoop是google的云计算系统的开源实现,用java开发。Hadoop由 Apache Software Foundation(阿帕奇软件基金会)公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。HDFS基本可以认为是GFS的一个简化版实现,二者因此有很多相似之处。HBase是Google的BigTable架构的一个开源实现。

    Google分布式计算框架主要包括三个部分:

    1. 分布式文件系统Google File System (GFS);
    2. 分布式并行计算模型map/reduce;
    3. 分布式数据库Bigtable。
    4. 此系统由Google公司自己开发,
    5. 闭源。

    MapReduce的系统实现至今仍为谷歌机密,而开源的版本Hadoop效率低下(据谷歌内部人士透露,5年前的谷歌MapReduce版本也比当前的Hadoop快一个数量级;现在谷歌的版本到底有多快,是否有新的功能,不得而知)。参考

    1. Google的分布式锁Chubby

    开源实现版本:Hadoop

    1. HDFS对应谷歌的GFS;参考
    2. Hadoop的map/reduce对应谷歌的map/reduce模型;
    3. Hbase对应谷歌的分布式数据库Bigtable;
    4. 此项目由Apache基金会管理
    5. 开源项目
    6. Zookeeper对应Google的分布式锁Chubby。
  • 相关阅读:
    8 pandas模块,多层索引
    7 numpy 傅里叶,提取图片轮廓
    6 DataFrame处理丢失数据--数据清洗
    5 pandas模块,DataFrame类
    4 pandas模块,Series类
    3 numpy模块
    2 线性代数基础
    1 Ipython、Jupyter 入门
    jdk安装与环境变量配置(一劳永逸)
    对jsp可见域的变量感悟
  • 原文地址:https://www.cnblogs.com/Lewis_Liu/p/MapReduce.html
Copyright © 2011-2022 走看看