zoukankan      html  css  js  c++  java
  • Hadoop中重要概念简要总结

    Hadoop是一个利用大规模计算机集群,可处理大量数据的分布式并行框架。
    Hadoop 官网
    Hadoop的核心设计包括HDFS和MapReduce。

    HDFS

    HDFS(Hadoop Distributed File System)是一种分布式文件系统。
    主要特点:1.高容错性;2.高吞吐量访问;3.线性扩展(扩充容量只是增加DataNode数量,可在不停止系统的情况下做扩展)
    HDFS架构图:

    一篇优秀的介绍HDFS原理的blog:HDFS的运行原理

    MapReduce

    MapReduce是一种分布式计算框架,被用于并行计算海量数据。其核心步骤包括Map(任务处理)和Reduce(结果汇总)两部分。

    上图来自知乎用户流通回答。用于海量处理的计算机分为两种,一种是Master,负责调度;另一种是Worker,包括Map和Reduce,Map将数据处理完毕后,将结果传送给Reduce汇总,如上图。

    Pig

    Pig是构建在MapReduce之上的一种SQL-like的高级查询语言。

    Hive

    Hive是构建在Hadoop集群之上的数据仓库应用,可以将结构化的数据文件映射为一张数据库表,其提供了SQL-like的HQL作为数据访问接口。

    介绍Hive的一篇blog:hive介绍

    Mahout

    Mahout是一个分布式机器学习算法集合。包括分布式协调过滤的实现,分类和聚类等。是一种很强大的数据挖掘工具。
    介绍Mahout的blog:Mahout学习

    HBase

    HBase是一种构建在HDFS之上的分布式、面向列的key-value存储系统(可以称为key-value数据库)。用于解决Hadoop只能批量处理,并且以顺序方式访问数据的问题。HBase提供快速随机访问海量结构化数据。
    HBase教程

    Sqoop

    Sqoop是一种用于Hadoop与传统数据库(如Mysql)之间进行数据传递的工具。

    Flume

    Flume,日志系统,是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。

    Chukwa

    类似于Flume,另一种Hadoop日志系统。有篇blog比较了hadoop的一些日志系统:开源日志系统比较:scribe、chukwa、kafka、flume

  • 相关阅读:
    软件测试人员的年终绩效考核怎么应对
    收藏
    顶踩组件 前后两版
    订阅组件
    hdu 1963 Investment 完全背包
    hdu 4939 Stupid Tower Defense 动态规划
    hdu 4405 Aeroplane chess 动态规划
    cf 414B Mashmokh and ACM 动态规划
    BUPT 202 Chocolate Machine 动态规划
    hdu 3853 LOOPS 动态规划
  • 原文地址:https://www.cnblogs.com/mengnan/p/9307669.html
Copyright © 2011-2022 走看看