zoukankan      html  css  js  c++  java
  • 一、什么是Hadoop?

    一、什么是Hadoop?

      Hadoop是Apache下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础结构。

      Hadoop包含HDFS,MapReduce,Pig,ZooKeeper等子项目的集合,用于分布式计算

    二、为什么要用Hadoop?

      由于现在信息量速度增长快。信息里又积累着大量的数据,包括个人数据和工业数据。每年产生的数字信息将会有1/3的内容留在云平台中,或者由云平台处理。我们需要对这些数据进行分析和处理,获取更多有价值的信息。如何搞笑的存储和管理这些数据,如何分析这些数据,就可以选用Hadoop系统,处理大数据时,采用了分布式存储方式,提供了读写速度,扩大了存储容量。采用MapReduce来整合分布式文件系统上的数据,保证分析和处理数据的高效,而且Hadoop采用存储冗余数据的方式保证了数据的安全性。

    三、HDFS

      HDFS有高容错特性,以及它基于Java语言开发,可部署在低廉的计算机集群中,而且不限某个操作系统,它基于Java语言开发。HDFS的数据管理能力,MapReduce处理任务的高效率。

    四、Hadoop项目及结构

      核心内容是MapReduce和HDFS,但是Common,Avro,Chukwa,Hive,HBase等项目。

     
    Pig Chukwa Hive HBase
    MapReduce HDFS ZooKeeper
    Core Avro

    1、Core/Common:为Hadoop其他子项目提供支持的常用工具,主要包括FileSystem,RPC(Remote Procedure Call远程过程调用协议)和串行化库。

    2、Avro:是用于数据序列化的系统。提供了丰富的数据结构类型,快速可压缩的二进制数据格式,可存储持久性数据的文件集。它依赖于模式Schema,Avro数据读和写是在模式下完成,这样可以减少写入数据的开销,提高序列化的速度

    3、MapReduce:是一种编程模型,用于大规模数据集的并行运算。Map映射,Reduce归约。MapReduce执行时先指定一个Map映射函数,把输入键值对映射成一个新的键值对。经过一定的处理后交给Reduce,Reduce对相同Key下的所有Value进行处理后再输出键值对作为最终的结果。

    核心是HDFS和MapReduce,Hadoop的体系结构主要通过HDFS来实现对分布式存储的底层支持,通过MapReduce来实现对分布式并行任务处理额的程序支持。

    4、HBase是一个分布式数据库

    5、Hive是建立在Hadoop上的数据仓库基础架构。

  • 相关阅读:
    mac os apache 配置方法详细介绍
    反向代理-- WEB服务的加速器[转]
    Nginx 配置基于域名的虚拟
    centos yum 安装 mongodb 以及php扩展
    优秀 Java 程序员写代码的风格,不再留坑给别人
    优秀 Java 程序员写代码的风格
    Java 必看的 Spring 知识汇总!有比这更全的算我输!
    Java Web技术经验总结
    在Java中字符串是通过引用传递的?
    15个顶级Java多线程面试题及答案
  • 原文地址:https://www.cnblogs.com/drq1/p/8425811.html
Copyright © 2011-2022 走看看