hadoop面试复习笔记(1)

zoukankan html css js c++ java

hadoop面试复习笔记(1)
0.Mappereduce采用的是Master/Slaves模型

1.Hadoop是一个开源软件框架，支持支持大数据集的存储和处理。Apache Hadoop是存储和处理大数据的解决方案你是因为：

　　(1)可扩展性。添加任意数量的节点来提高性能

　　(2)可靠。尽管机器出现故障，但是仍能可靠的存储数据

　　(3)高可用。尽管机器出现故障，但是Hadoop仍然能够存储数据。如果机器硬件崩溃，可以从另一个路径进行访问。

　　(4)经济。

2.Hadoop的核心组件是什么？

　　Hadoop是一个开源软件框架，用于分布式存储和处理大数据集。Apache Hadoop核心组件是HDFS，MapReduce和YARN

　　HDFS:Hadoop分布式文件系统(HDFS)是Hadoop的主要存储系统。工作原理:存储少量的大文件而不是存储大量的小文件，即使是在硬件故障的情况下，HDFS也可以可靠的存储数据。通过并行访问提供对应用程序的高吞吐量的访问

　　MapReduce:是Hadoop的数据处理层。是能够处理存储在HDFS中的大型结构化和非结构化数据的应用程序。MapReduce能够并行处理大量的数据。通过将作业划分为一组独立的子任务来进行处理，MapReduce的工作阶段可以分为Map阶段和Reduce阶段

　　YARN:资源调度框架。提供资源管理并允许多个数据引擎处理。

3.Hadoop的特点。

　　(1)开源。

　　(2)分布式处理：因为HDFS以分布式的方式在整个集群上存储数据，所以MapReduce在集群上是并行的处理数据

　　(3)可靠性：尽管机器出现故障，但是仍然能够在集群上可靠的存储数据

　　(4)高可用性：尽管硬件出现故障，我们能够从另一路径访问数据

　　(5)可扩展性：可以将新硬件添加带节点上

　　(6)经济

　　(7)易于使用

4.比较Hadoop和RDBMS?

　(1):架构，传统RDBMS具有ACID的属性。而Hadoop是一个计算框架，具有两个主要的组件:分布式文件系统(HDFS)和MapReduce

　(2)数据接收。RDBMS仅能狗接收结构化的数据，而hadoop能够接收结构化数据和非结构数据

　(3)传统RDBMS支持OLTP(实时数据处理)，而hadoop不支持的。

5.Hadoop的运行模式有哪些？

　　(1)本地模式:单节点非分布式模式运行，作为单个的java进程进行运行。

　　(2)为分布式

　　(3)完全分布式。

6.本地模式有哪些功能？

　　hadoop作为单个java进程以单节点非分布式模式来运行，使用本地文件系统进行相关的输入和输出。仅在测试和调试的时候比较有用

7.伪分布模式有哪些特点？

等同于完全分布式，但是所有的节点都运行在一个节点上

　　配置core-site.xml文件：　　
<?xml version="1.0"?>　　　　　　  <configuration> <property> <name>fs.defaultFS</name>　　　//这个地方配置类默认的文件系统，如果是本地模式就是localhost，使用的主机名和端口，最常用的是9000 <value>hdfs://localhost/</value> </property> </configuration>
　　配置hddfs-site.xml文件

　　
<?xml version="1.0"?>  <configuration> <property> <name>dfs.replication</name> <value>1</value> //查看配置的副本数 </property> </configuration>
　　配置mapreduce　　
<configuration> <property> <name>mapreduce.framework.name</name>　　//为MapReduce指定框架名称 <value>yarn</value> </property> </configuration>
配置shuffle以及资源管理器的地址

　　
<configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>localhost</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
8.列举出hadoop中定义的最常用的InputFormat哪个是默认的　　　　　　　　

　　
查看全文

相关阅读:
21.面向对象：多态与多态性、面向对象进阶：内置方法，反射。异常处理
 mysql 复习
 Python之math模块
 mysql数据类型转换
 Remmina
JWT校验流程源码
 JWT签发token
elasticsearch使用
 Flask基础
 初识Flask

原文地址：https://www.cnblogs.com/bigdata-stone/p/9635268.html