zoukankan      html  css  js  c++  java
  • hadoop(1)hadoop的介绍和几种模式。 北漂

    一、什么是hadoop?

            Hadoop软件库是一个开源框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储。库本身不是依靠硬件来提供高可用性,而是设计用于检测和处理应用程序层的故障,从而在计算机集群之上提供高可用性服务,每个计算机都可能容易出现故障。是大数据技术的基础。

            hadoop所包含的模块(从官网借鉴的):

    ♥  hadoop分布式文件系统(HDFS):一种分布式文件系统,能够提供高可靠、高可用、可扩展以及对应用程序数据的高吞吐量访问。

    ♥  yarn  :作业调度和资源管理的框架。

    ♥  MapReduce   :基于yarn框架,用于并行计算处理大型数据集,是一种计算框架。

    ♥   ambari   :基于Web的工具,用于配置,管理和监控Apache Hadoop集群,包括对Hadoop HDFS,Hadoop MapReduce,Hive,HCatalog,HBase,ZooKeeper,Oozie,Pig和Sqoop的支持。Ambari还提供了一个用于查看群集运行状况的仪表板,例如热图,以及可视化查看MapReduce,Pig和Hive应用程序的功能,以及以用户友好的方式诊断其性能特征的功能。

    ♥    avro   :数据序列化系统。

    ♥   cassandra:可扩展的多主数据库,没有单点故障。

    ♥   hbase:可扩展的分布式数据库,支持大型表的结构化数据存储。

    ♥    hive:一种数据仓库基础架构,提供数据汇总和即席查询。

    ♥   pig:用于并行计算的高级数据流语言和执行框架。

    ♥    spark:用于Hadoop数据的快速通用计算引擎。Spark提供了一种简单而富有表现力的编程模型,支持广泛的应用程序,包括ETL,机器学习,流处理和图形计算。

    ♥    zookeeper:用于分布式应用程序的高性能协调服务。

    二、hadoop的四种模式。

    1、本地模式:

        本地模式就是解压源码包,不需要做任何的配置。通常用于开发调试,或者感受hadoop。

    2、伪分布模式:

        在学习当中一般都是使用这种模式,伪分布模式就是在一台机器的多个进程运行多个模块。虽然每一个模块都有相应的进程,但是却还是运行在同一个系统里面。所以叫伪分布式。

    3、完全分布式:

        这种模式才是工作当中所用的模式,hadoop运行在多台机器上面,我们称之为hadoop集群。

    4、HA:

        在实际的工作当中,对于hadoop完全分布式来说,并不真正的可靠,因为hadoop完全分布式集群会有单点故障(namenode单点故障、yarn单点故障),所以一般都会对这个集群做HA,一般都是做namenode和yarn的高可用。

    下一章会对这几种模式的安装作介绍。

    ***  本博客只是用来对自己所学知识的记录和总结,同时也希望能够帮助他人,可能写的并不好,还请见谅。*** 

  • 相关阅读:
    MySQL教程(四)—— MySQL的登录与退出
    MySQL教程(三)—— MySQL的安装与配置
    django中使用POST方法报错 URL via POST, but the URL doesn't end in a slash
    django的html模板中获取字典的值
    使用pycharm手动搭建python语言django开发环境(五) 使用日志模块打日志
    使用pycharm手动搭建python语言django开发环境(四) django中buffer类型与str类型的联合使用
    python语言 buffer类型数据的使用 'ascii' codec can't decode byte 0xe5 问题的解决
    使用pycharm手动搭建python语言django开发环境(三) 使用django的apps应用 添加应用静态文件
    使用pycharm手动搭建python语言django开发环境
    使用pycharm手动搭建python语言django开发环境(一)
  • 原文地址:https://www.cnblogs.com/yjt1993/p/9469042.html
Copyright © 2011-2022 走看看