zoukankan      html  css  js  c++  java
  • hadoop面试复习笔记(1)

    0.Mappereduce采用的是Master/Slaves模型

    1.Hadoop是一个开源软件框架,支持支持大数据集的存储和处理。Apache Hadoop是存储和处理大数据的解决方案你是因为:

      (1)可扩展性。添加任意数量的节点来提高性能

      (2)可靠。尽管机器出现故障,但是仍能可靠的存储数据

      (3)高可用。尽管机器出现故障,但是Hadoop仍然能够存储数据。如果机器硬件崩溃,可以从另一个路径进行访问。

      (4)经济。

    2.Hadoop的核心组件是什么?

      Hadoop是一个开源软件框架,用于分布式存储和处理大数据集。Apache Hadoop核心组件是HDFS,MapReduce和YARN

      HDFS:Hadoop分布式文件系统(HDFS)是Hadoop的主要存储系统。工作原理:存储少量的大文件而不是存储大量的小文件,即使是在硬件故障的情况下,HDFS也可以可靠的存储数据。通过并行访问提供对应用程序的高吞吐量的访问

      MapReduce:是Hadoop的数据处理层。是能够处理存储在HDFS中的大型结构化和非结构化数据的应用程序。MapReduce能够并行处理大量的数据。通过将作业划分为一组独立的子任务来进行处理,MapReduce的工作阶段可以分为Map阶段和Reduce阶段

      YARN:资源调度框架。提供资源管理并允许多个数据引擎处理。

    3.Hadoop的特点。

      (1)开源。

      (2)分布式处理:因为HDFS以分布式的方式在整个集群上存储数据,所以MapReduce在集群上是并行的处理数据

      (3)可靠性:尽管机器出现故障,但是仍然能够在集群上可靠的存储数据

      (4)高可用性:尽管硬件出现故障,我们能够从另一路径访问数据

      (5)可扩展性:可以将新硬件添加带节点上

      (6)经济

      (7)易于使用

    4.比较Hadoop和RDBMS?

     (1):架构,传统RDBMS具有ACID的属性。而Hadoop是一个计算框架,具有两个主要的组件:分布式文件系统(HDFS)和MapReduce

     (2)数据接收。RDBMS仅能狗接收结构化的数据,而hadoop能够接收结构化数据和非结构数据

     (3)传统RDBMS支持OLTP(实时数据处理),而hadoop不支持的。

    5.Hadoop的运行模式有哪些?

      (1)本地模式:单节点非分布式模式运行,作为单个的java进程进行运行。

      (2)为分布式

      (3)完全分布式。

    6.本地模式有哪些功能?

      hadoop作为单个java进程以单节点非分布式模式来运行,使用本地文件系统进行相关的输入和输出。仅在测试和调试的时候比较有用

    7.伪分布模式有哪些特点?

    等同于完全分布式,但是所有的节点都运行在一个节点上

      配置core-site.xml文件:  

    <?xml version="1.0"?>      
    <!-- core-site.xml -->
    <configuration>
            <property>
                    <name>fs.defaultFS</name>   //这个地方配置类默认的文件系统,如果是本地模式就是localhost,使用的主机名和端口,最常用的是9000
                    <value>hdfs://localhost/</value>
            </property>
    </configuration>

      配置hddfs-site.xml文件

      

    <?xml version="1.0"?>
    <!-- hdfs-site.xml -->
    <configuration>
            <property>
                    <name>dfs.replication</name>
                    <value>1</value>        //查看配置的副本数
            </property>
    </configuration>

      配置mapreduce  

    <configuration>
            <property>
                    <name>mapreduce.framework.name</name>  //为MapReduce指定框架名称
                    <value>yarn</value>
            </property>
    </configuration>

    配置shuffle以及资源管理器的地址

      

    <configuration>
            <property>
                    <name>yarn.resourcemanager.hostname</name>
                    <value>localhost</value>
            </property>
            <property>
                    <name>yarn.nodemanager.aux-services</name>
                    <value>mapreduce_shuffle</value>
            </property>
    </configuration>

    8.列举出hadoop中定义的最常用的InputFormat哪个是默认的        

      

  • 相关阅读:
    Ubuntu 安装mysql和简单操作
    fatal error: mysql.h: No such file or directory
    彻底删除win10系统下的mysql
    ORACLE 回收站导致的故障
    Log Buffer
    ORACLE数据库存储结构
    Shared pool
    ORACLE 实例及RAC
    Buffer Cache
    数据库dump导入
  • 原文地址:https://www.cnblogs.com/bigdata-stone/p/9635268.html
Copyright © 2011-2022 走看看