zoukankan      html  css  js  c++  java
  • hadoop基础知识

    1、Hadoop是一个适合大数据的分布式存储与计算平台

    2、Hadoop核心:

    HDFS(Hadoop Distributed File System) 分布式文件系统

    MapReduce 并行计算框架

    2.1、Hadoop生态系统

    Zookeeper 分布式协作系统

    HBse 实时分布式列存数据库

    Spark 内存分布数据集

    Hive 数据仓库(离线分析)

    Pig 数据流处理

    Stom 实时分析(流方式)

    Mahout数据挖掘算法库

    Spoop 数据ETL工具

    Flume 日志手机工具

    3、Hadoop架构

    3.1、HDFS 主从结构

    主节点,只有一个:namenode 从节点,有很多个。

    datanode namenode:

    负责管理 接受用户操作请求,实现对文件系统的操作(命令和API方式)。

    维护文件系统的目录结构。

    管理文件与block之间关系,block与datanode之间的关系。

    datanode:

    负责存储 存储文件。

    文件被分成block。

    为保证数据安全,文件会有多个副本。

    3.2、MapReduce架构:

    主从架构: 主节点,只有一个: JobTracker 从节点,有很多个。

    TaskTrackers JobTracker:

    接受客户提交的计算任务 把计算任务分给TaskTrackers执行

    监控TaskTracker的执行情况

    TaskTracker:

    执行JobTracker分配的计算任务

    4、Hadoop的特点

    扩容能力:能可靠存储和处理千兆字节(PB)数据。

    成本低:可以通过普通PC组成集群来分发和处理数据,服务器群总计可达数千个节点。

    高效率:通过分发数据,hadoop可以在数据所在节点上并行处理。

    可靠性:hadoop能自动维护数据的多副本,并且在任务失败后能自动重新部署计算任务。

  • 相关阅读:
    Ado.Net基础拾遗一:读取数据
    Linq 简明教程
    ASP.NET MVC DropdownList的使用
    inner join, left join ,right join 结果
    C#基础之 派生类
    SQL Server 笔试题总结
    SQL Server 基础 之 CASE 子句
    昨晚京东校招笔试,没考一道.net,全考java了
    利用scrapy和MongoDB来开发一个爬虫
    linux 获取网卡的IP地址
  • 原文地址:https://www.cnblogs.com/kenwong/p/4760480.html
Copyright © 2011-2022 走看看