zoukankan      html  css  js  c++  java
  • 大数据发展里程-Hadoop视角

    周末查询了一些大数据相关的资料,今天简单以Hadoop的视角来总结一下我对大数据发展里程的总结:


    2004:Google 发表大数据论文,  “三驾马车”横空出世

    1.     分布式文件系统 GFS

    2.     大数据分布式计算框架 MapReduce

    3.     NoSQL 数据库系统 BigTable


    2006:Nutch 搜索引擎 分离出 Hadoop  

      Doug Cutting 将大数据相关的功能从 Nutch 中分离出来

    1.     HDFS,分布式文件存储

    2.     MapReduce,分布式计算引擎、资源调度框架


    2007:陆续应用于 雅虎、百度、阿里 等企业

        Hadoop 应用于互联网大厂的大数据存储与计算


    2008Hadoop 成为 Apache 顶级项目

    1. Cloudera 成立,运营 Hadoop 的商业公司

    2. Pig(Yahoo 开发)  脚本语言 转换为 MapReduce 任务

    3. Hive (Facebook 开发) 用 SQL 转换为 MapReduce 任务 

    4. Cassandra (Facebook 开发) 分布式 NoSQL 数据库


    2011:Hadoop 生态逐步形成

    1. Sqoop 数据导入、导出工具

    2. Flume 日志分布式 收集、聚合、传输

    3. Oozie 工作流调度引擎

    4. HBase 基于 HDFS 的 NoSQL 系统

    5. Cassandra 分布式 NoSQL 数据库,逐渐流行


    2012Yarn 资源调度系统

        Spark 开始崭露头角:源于 伯克利 AMP 实验室。

    新概念引入:

    1. 批处理计算、大数据离线计算

      • 代表:MapReduce、Spark

    2. 大数据流计算、大数据实时计算

    3. 大数据分析与大数据仓库

    4. 大数据挖掘与机器学习


       本次总结粒度比较粗,面相对窄。后续我们继续

  • 相关阅读:
    pinyin4j使用示例
    迭代器模式
    适配器模式
    策略模式
    装饰模式
    责任链模式
    命令模式
    中介者模式
    原型模式
    代理模式
  • 原文地址:https://www.cnblogs.com/higkoo/p/15206754.html
Copyright © 2011-2022 走看看