zoukankan      html  css  js  c++  java
  • 初识hadoop和mapreduce

    Hadoop发展简史
     
    Hadoop 是Apache Lucene 创始人Doug Cutting 创建的, Lucene 是一个广泛使用的
    文本搜索系统库。Hadoop 起源于Apache Nutch ,一个开源的网络搜索引擎, 它本
    身也是Lucene 项目的一部分。
     
    hadoop项目如下:
     
     
    Common
    一组分布式文件系统和通用I10 的组件与接口(序列化、Java RPC 和持久化数据结构)。
     
    Avro
    一种支持高效、跨语言的RPC 以及永久存储数据的序列化系统。
     
    MapReduce
    分布式数据处理模型和执行环境,运行于大型商用机集群。
     
    HDFS
    分布式文件系统,运行于大型商用机集群。
     
    Pig
    一种数据流语言和运行环境,用以检索非常大的数据集。Pig 运行在 MapReduce 和HDFS 的集群上。
     
    Hive
    一个分布式、按列存储的数据仓库。Hive 管理HDFS 中存储的数据,并提供基于SQL 的查询语言(由运行时引擎翻译成MapReduce 作业)用以查询数据。
     
    HBase
    一个分布式、按列存储数据库。HBase 使用HDFS 作为底层存储,同时支持MapReduce 的批量式计算和点查询(随机读取)。
     
    ZooKeeper
    一个分布式、可用性高的协调服务。ZooKeeper 提供分布式锁之类的基本服务用于构建分布式应用。
     
    Sqoop
    在数据库和HDFS 之间高效传输数据的工具。
     
    mapreduce
    Hadoop可以运行由各种语言(如:Java,C++,Ruby,Python等)编写的MapReduce程序。
     
    MapReduce任务过程被分为两个处理阶段:map阶段和reduce阶段。每个阶段都以键/值对作为输入和输出,并由程序员选择它们的类型。需要定义两个函数:map函数和reduce函数。
     
    map函数的输出经由MapReuce框架处理后,最后被发送到reduce函数,这一处理过程中需要根据键对键/值对进行排序和分组。
  • 相关阅读:
    Nginx入门使用
    下载pcre-8.35.tar.gz
    后端传到前端时间问题
    Layui弹出层分割线
    CSS动画实例:图文切换
    JavaScript小游戏实例:简单的键盘练习
    JavaScript小游戏实例:统一着色
    JavaScript动画实例:炸开的小球
    JavaScript动画实例:烟花绽放迎新年
    JavaScript动画实例:圆点的衍生
  • 原文地址:https://www.cnblogs.com/carleunderwood/p/7149825.html
Copyright © 2011-2022 走看看