zoukankan      html  css  js  c++  java
  • 认识Hadoop

    概述

    开源、分布式存储、分布式计算

    大数据生态体系

    •  特点:开源、社区活跃
    • 囊括了大数据处理的方方面面
    • 成熟的生态圈

    推荐系统

    应用场景

    • 搭建大型数据仓库,PB级数据的存储、处理、分析、统计
    • 日志分析
    • 数据挖掘

    核心组件

    HDFS(分布式文件存储系统)

    • 特点:扩展性、容错性、海量数据存储
    • 将文件切分成指定大小(默认128M)的数据块并以多副本(默认3副本)的存储在多个机器上
    • 数据切分、多副本、容错等操作对用户是透明的

    架构
    • 1个master(NameNode/NN)带n个slave(datanode/DN)
    • 1个文件会被拆分成多个Block(blocksize=128M)
    • NN:
      • 负责客户端请求响应
      • 负责元数据(文件名称、副本系数、block存放的DN)管理
    • DN:
      • 存储用户的文件对应的数据块(block)
      • 定期向NN发送心跳信息,汇报本身及所有的block信息,健康状况

    hdfs副本策略

    Yarn(资源调度系统)

    • 特点:扩展性、容错性(任务失败重试)、多框架资源统一调度 (比如spark、hivesql、hbase、storm)

    • yarn:Yet another resource negotiator
    • 负责整个集群资源的管理和调度

    MapReduce(分布式计算框架)

    • 特点:扩展性、容错性、海量离线数据处理

    Hadoop的优势

    高可靠性

    • 数据存储:数据块多副本
    • 数据计算:重新调度作业计算

    扩展性

    • 存储/计算资源不够时,可以横向的线性扩展机器
    • 一个集群可以包含数以千计的节点

    其他

    • 存储在廉价机器上,降低成本
    • 成熟的生态圈

    Hadoop常用发行版及选型

    • Apache Hadoop(解决了单个框架的问题,联合使用时很多包冲突)
    • CDH:Cloudera Distributed Hadoop(60~70%)
    • HDP:Hortonworks Data PlatForm
  • 相关阅读:
    安装SQLserver2008时出现的错误
    第二章 语法陷阱
    分享:APK高级保护方法解析(三)
    设计模式_命令模式
    POJ-3134-Power Calculus(迭代加深DFS)
    Rational Rose2007具体安装步骤
    webAPP开发的问题(总结)
    基于Linux的智能家居的设计(5)
    获取表数据的插入SQL
    POJ 3667 Hotel(线段树)
  • 原文地址:https://www.cnblogs.com/zxbdboke/p/10458615.html
Copyright © 2011-2022 走看看