zoukankan      html  css  js  c++  java
  • 初识Hadoop

    一、Hadoop概述

    1、Hadoop名字是由Hadoop项目作者的孩子给一个棕黄色的大象样子的填充玩具的命名,Hadoop是Apache开源的分布式存储+分布式计算平台。Hadoop能搭建大型数据仓库、PB级数据的存储、处理、分析、统计等业务,如搜索引擎、日志分析、商业智能、数据挖掘

    2、狭义Hadoop:是一个适合大数据分布式存储(HDFS)、分布式计算(MapReduce)和资源调度(YARN)的平台

    3、广义Hadoop:指的是Hadoop生态系统,Hadoop生态系统是一个很庞大的概念,hadoop是其中最重要最基础的一个部分;生态系统中每一个子系统只解决某一个特定的问题域(甚至可能很窄),不搞统一型的全能系统,而是小而精的多个小系统

    二、Hadoop核心组件

    1、Hadoop核心组件之分布式文件系统HDFS

    源自于Google的GFS论文,论文发表于2003年10月

    HDFS是GFS的克隆版

    HDFS特点:扩展性&容错性&海量数据存储

    将文件切分成指定大小的数据块并以多副本的存储在多个机器上

    数据切分、多副本、容错等操作对用户是透明的

    2、Hadoop核心组件之资源调度系统YARN(Yet Another Resource Negotiator)

    负责整个集群资源的管理和调度

    特点:扩展性&容错性&多框架资源统一调度

    3、Hadoop核心组件之分布式计算框架MapReduce

    源自于Google的MapReduce论文,论文发表于2004年12月

    MapReduce是Google MapReduce的克隆版

    特点:扩展性&容错性&海量数据离线处理

    三、Hadoop优势

    1、Hadoop优势之高可靠性

    数据存储:数据块多副本

    数据计算:重新调度作业计算

    2、Hadoop优势之高扩展性

    存储/计算资源不够时,可以横向的线性扩展机器

    一个集群中可以包含数以千计的节点

    3、Hadoop优势之其他

    存储在廉价机器上,降低成本

    成熟的生态圈

    四、Hadoop发展史

    参考:https://www.infoq.cn/article/hadoop-ten-years-interpretation-and-development-forecast

    五、Hadoop生态系统

    Hadoop生态系统的特点

    1、开源、社区活跃

    2、囊括了大数据处理的方方面面

    3、成熟的生态圈

    六、Hadoop发行版的选择

    1、Apache Hadoop

    2、CDH:Cloudera Distributed Hadoop

    3、HDP:Hortonworks Data Platform

    CDH下载地址,拷贝以下地址到浏览器访问:archive.cloudera.com/cdh5/cdh/5/

  • 相关阅读:
    疫情控制
    严格次小生成树
    图论之最短路
    A Simple Framework for Contrastive Learning of Visual Representations 阅读笔记
    CenterNet文献调研记录
    朴素贝叶斯分类器基本代码 && n折交叉优化 2
    朴素贝叶斯分类器基本代码 && n折交叉优化
    蓝桥杯刷题 -- 第八届蓝桥杯
    蓝桥杯刷题 -- 第七届蓝桥杯
    蓝桥杯刷题 -- 第六届蓝桥杯
  • 原文地址:https://www.cnblogs.com/yanguobin/p/12050372.html
Copyright © 2011-2022 走看看