zoukankan      html  css  js  c++  java
  • 关于Hadoop

    1、Hadoop解决了哪些问题?###

    由于硬盘存储能力的提升速度远大于数据读取的提升速度,1T硬盘对应的读取速度为100M/s,因此需要花费两个多小时的时间来读取所有数据,而如果我们拥有100个硬盘并行读取,则只需要花费大约两分钟,所以我们更加愿意去共享硬盘来获取更快的读取速度,而这样就会出现两个问题:

    1. 数据存储问题:由于硬盘数量变大,硬盘出错的可能性也会相应变大,这就需要我们对数据进行备份,Hadoop的文件系统提供了一个可靠的共享存储系统。
    2. 数据分析和处理问题:有时候一个硬盘的数据需要和其他硬盘的数据结合来使用,并保证其正确性,MapReduce提出了一个编程模型,可以将不同来源的数据结合起来集中进行计算。

    综上,Hadoop为我们提供了一个可靠的共享存储和分析系统,HDFS实现数据的存储,MapReduce实现数据的分析和处理,HDFS和MapReduce是Hadoop的核心价值。

    2、和RDBMS比较,我们为什么需要MapReduce?###

    RDBMS:数据更新利用传统的B树(关系型数据库中使用的一种数据结构,受限于寻址的比例)
    MapReduce:流数据读取模式,读取主要取决于传输速率
    而计算机硬件的发展趋势是:寻址时间的提升远远不敌于传输速率的提升

    因此,MapReduce比较适合以批处理的方式处理需要分析整个数据集的问题,尤其是动态分析。RDBMS适用于点查询和更新,数据集被索引以后,数据库系统能够提供低时延的数据检索和快速的少量数据更新。MapReduce适合一次写入多次读取数据的应用,关系型数据库则更适合持续更新的数据集。

    另一个区别在于他们所操作的数据集的结构化程度,mapreduce对于半结构化和非结构化的数据读取是非常有效的,输入的key和value并不是固定的属性,而RDBMS的数据往往是规范的,保持其完整性。

    3、Hadoop2相较于Hadoop1有哪些改变?###

    1. 在新的YARN系统上构建了一个新的运行环境,YARN系统是一个通用的用于运行分布式应用的资源管理系统。
    2. HDFS联邦管理:该管理将HDFS的命名空间分散到多个namenode中以支持包含有大规模数据文件的集群(即大量的小文件会极大的消耗namenode的内存)。允许系统通过添加namenode实现扩展,每个namenode管理文件命名空间中的一部分,在联邦环境下,每个namenode维护一个命名空间卷,包括命名空间的源数据和在该命名空间下的文件的所有数据块的数据块池,命名空间卷之间相互独立,数据块池不再进行切分,因此集群中的datanode需要注册到每个namenode,并且存储着来自多个数据块池中的数据块。
    3. HDFS的高可用性,针对系统崩溃而启用的namenode来避免namenode的单点故障问题。
      原来的机制:一是备份那些组成文件系统元数据持久状态的文件,一般的配置是写入本地磁盘的同时,写入一个远程挂载的网络文件系统(NFS);二是运行一个辅助namenode,它定期通过编辑日志合并命名空间镜像,一般在另一台单独的物理计算机上运行,因为需要占用大量CPU时间与namenode相同容量的内存来执行合并操作,保存合并以后的命名空间镜像副本,并在namenode发生故障后启用,但是辅助namenode一般会滞后于主节点,一般把存储在NFS上的namenode元数据复制到辅助namenode并作为新的namenode运行。
      hadoop2.0的机制:配置一对活动-备用namenode,它们之间通过高可用的共享存储实现编辑日志的共享,以实现状态同步,同时,datanode需要同时向两个namenode发送数据块处理报告,在活动namenode失效,备用namenode能够快速实现任务接管,若两个都失效,管理员可以申请一个备用namenode实现冷启动(组织两个namenode有序切换角色通过故障转移控制器与namenode之间的心跳机制实现)
  • 相关阅读:
    数据的增、删、改(jQuery.Ajax)
    tomcat内置jdk(tomcat集成jdk)(windows环境)
    进行数据库进程的杀死
    矩阵与自然基向量
    实对称矩阵
    坐标变换
    设置PySpark的Python版本
    CentOS7中安装Python3.6
    一个矩阵有几个实特征向量
    centos7系统设置固定IP
  • 原文地址:https://www.cnblogs.com/LeonNew/p/5558673.html
Copyright © 2011-2022 走看看