zoukankan      html  css  js  c++  java
  • 04_Apache Hadoop 生态系统

    内容提纲:

    1 Apache Hadoop 生态系统的认识(Hadoop 1.x Hadoop 2.x

    2 Apache Hadoop 1.x 框架架构原理的初步认识

    3 Apache Hadoop 1.x 安装的三种模式

    Hadoop 1.x 生态系统

    ETL: 提取à转换à加载:从数据库中获取数据,并进行一系列的数据清理和清洗筛选,将合格的数据进行转换成一定的格式数据进行存储,将格式化的数据存储到 HDFS 文件系统上,以供计算框架进行数据分析和挖掘。

    格式化数据:

    |- TSV 格式:每行数据的每列之间以【制表符 进行分割

    |- CSV 格式:每行数据的每列之间以【逗号】进行分割

    Sqoop:将关系型数据库中的数据与 HDFSHDFS 文件,HBase 中表,Hive 中的表)上的数据行相互导入导出。

    Flume:收集各个应用系统和框架的日志,并将其放到 HDFS 分布式文件系统的相应制定的目录下。

    Hadoop 2.x 生态系统

     

    对于分布式系统和框架的架构来说,一般分为两部分:

    第一部分:管理层,用于管理应用层的

    第二部分:应用层(工作的)

    HDFS,分布式文件系统,

    NameNode :属于管理层,用于管理数据的存储

    SecondaryNameNode:也属于管理层,辅助 NameNode 进行管理

    DataNode :属于应用层,用户进行数据的储存,被 NameNode 进行管理,要定时的向 NameNode

    进行工作汇报,执行 NameNode 分配分发的任务。

    MapReduce ,分布式的并行计算矿建,

    JobTracker属于管理层,管理集群资源和对任务进行资源调度,监控人去的执行。

    TaskTracker:属于应用层,执行 JobTracker 分配分发的任务,并向 JobTracker 汇报工作情况。

    NameNode,存储文件的元数据,

    1文件名称

    2文件的目录结构

    3文件的属性(权限,副本数,生成的时间)

    4文件à(对应)Blockà(存储在)DataNodes

     

    Apache Hadoop 安装部署模式

    伪分布模式(Pseudo-Distributed Mode),

      1一台机器上运行所有的 Hadoop 服务(五个守护进程)。

    2我们整个课程,基本上都是使用伪分布式环境(尤其是讲解 MapReduce

  • 相关阅读:
    TransactSQL语言 学习sql server2005 step by step(四)
    一步一步学习C#(一)
    SQL实例进阶学习sql server2005 step by step(八)
    SQL Server中常用全局变量和函数 学习sql server2005 step by step(五)
    SQL实例进阶学习sql server2005 step by step(七)
    C#操作excel(开篇)
    SQL进阶提升(平时小积累)学习sql server2005 step by step(十)
    mysql 备份各种方法
    ubuntu 这可怕的弹出窗口啊“Enter password to unlock your login keyring”
    很简单的内核模块A+B
  • 原文地址:https://www.cnblogs.com/xiangyangzhu/p/5242264.html
Copyright © 2011-2022 走看看