zoukankan      html  css  js  c++  java
  • Apache Hadoop 和Hadoop生态圈

    Apache Hadoop Hadoop生态圈


    Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

    用户能够在不了解分布式底层细节的情况下。开发分布式程序。充分利用集群的威力进行快速运算和存储。


    Hadoop实现了一个分布式文件系统Hadoop Distributed File System),简称HDFS

    HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。并且它提供高吞吐量(high throughput)来訪问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。

    HDFS放宽了(relaxPOSIX的要求。能够以流的形式訪问(streaming access)文件系统中的数据。

    Hadoop的框架最核心的设计就是:HDFSMapReduce

    HDFS为海量的数据提供了存储。则MapReduce为海量的数据提供了计算。

     

    虽然HadoopMapReduce及其分布式文件系统HDFS而出名,但Hadoop这个名字也用于一组相关项目的统称,这些相关项目都使用这个基础平台进行分布式计算和海量数据处理。


    Hadoop Common:

    一组分布式文件系统和通用I/O的组件与接口(序列化,Java RPC 和持久化数据结构)

     

    HDFS: Hadoop分布式文件系统(Distributed File System) - HDFS (Hadoop Distributed File System)。执行于大型商用机集群


    MapReduce

    分布式数据处理模型和执行环境,执行于大型商用机集群


    HBase

    一个分布式、按列存储数据库。HBase使用HDFS作为底层存储,同一时候支持MapReduce的批量式计算和点查询(随机读取)。


    Hive:数据仓库工具。由Facebook贡献。一种分布式、按列存储的数据仓库。

    Hive管理HDFS中存储的数据。并提供基于SQL的查询语言(有执行时引擎翻译成MapReduce作业)用以查询数据。


    Zookeeper:分布式锁设施,提供类似Google Chubby的功能,由Facebook贡献。

    一种分布式、可用性高的协调服务。提供分布式锁之类的基本服务用于构建分布式应用。


    Avro:一种支持高效、跨语言的RPC以及永久存储数据的序列化系统。新的数据序列化格式与传输工具,将逐步代替Hadoop原有的IPC机制。


    Pig: 

    大数据分析平台。为用户提供多种接口。

    一种数据流语言和执行环境,用以检索很大的数据集。Pig执行在MapReduceHDFS的集群上。


    Ambari

    Hadoop管理工具。能够快捷的监控、部署、管理集群。


    Sqoop

    在数据库和HDFS之间高效数据传输的工具。

     

     

    參考文献:

    http://baike.baidu.com/link?url=5TXA32tcYO3i-xO4cIMNT4b6EJv9rNo-2hO7L5FpZsEzeSHMh_BXS8d9yX4T80El7rGMUMMCgVRVfx-8a-Dl2q

     

    http://hadoop.apache.org

     

    Hadoop权威指南》

  • 相关阅读:
    node.js如何让前端请求时能跨域
    手把手教你使用webpack搭建vue框架
    手把手教你使用koa2
    react性能优化
    axios post 踩坑之 post传参
    小程序自定义左上角返回按钮跳转到指定界面
    webpack入门教程
    编写可维护的js代码
    js的严格模式
    vue短信验证性能优化写入localstorage中
  • 原文地址:https://www.cnblogs.com/wzzkaifa/p/6900180.html
Copyright © 2011-2022 走看看