大数据面试（HR电话了解）

zoukankan html css js c++ java

大数据面试（HR电话了解）

1什么是HA集群？

所谓HA，即高可用（7*24小时不中断服务）

HA集群是hadoop高可用集群，即有两个namenode，一个active，一个stanby，active的name挂掉之后，stanby的namenode就会切换成active，

最关键的是消除单节点故障

双namenode协调工作的要点：

　　　A、元数据管理方式需要改变：

　　　　内存中各自保存一份元数据

　　　　Edits日志只能有一份，只有Active状态的namenode节点可以做写操作

　　　　两个namenode都可以读取edits

　　　　共享的edits放在一个共享存储中管理（qjournal和NFS两个主流实现）

　　　B、需要一个状态管理功能模块

　　　　实现了一个zkfailover，为一个守护进程，常驻在每一个namenode所在的节点

　　　　每一个zkfailover负责监控自己所在namenode节点，利用zk进行状态标识

　　　　当需要进行状态切换时，由zkfailover来负责切换

　　　　切换时需要防止brain split现象的发生（脑裂）

2HA的两个namenode之间是怎么进行切换的？

　　　　实现了一个zkfailover，为一个守护进程，常驻在每一个namenode所在的节点

　　　　每一个zkfailover负责监控自己所在namenode节点，利用zk进行状态标识

　　　　当需要进行状态切换时，由zkfailover来负责切换

　　　　切换时需要防止brain split现象的发生（脑裂）

3.yarn包括了什么？

YARN 分层结构的本质是 ResourceManager。这个实体控制整个集群并管理应用程序向基础计算资源的分配。

ResourceManager 还与 ApplicationMaster 一起分配资源，与 NodeManager 一起启动和监视它们的基础应用程序。

ApplicationMaster 管理一个在 YARN 内运行的应用程序的每个实例。ApplicationMaster 负责协调来自 ResourceManager 的资源，

并通过 NodeManager 监视容器的执行和资源使用 (CPU、内存等的资源分配）。

NodeManager 管理一个 YARN 集群中的每个节点。NodeManager 提供针对集群中每个节点的服务，从监督对一个容器的终生管理到监视资源和跟踪节点健康。

4.hive的sql语句你掌握多少？

5.hive的数据保存在哪里？

Hive的数据分为表数据（数据源），元数据，

表数据是Hive中表格(table)具有的数据;

而元数据是用来存储表的名字，表的列和分区及其属性，表的属性(是否为外部表等)，表的数据所在目录等

数据源存储在HDFS上，元数据存在在mysql中

6.hive的数据可以导出到哪里？

1.导出到本地文件系统。

2.导出到HDFS中；

3.导出到Hive的另外一个表中。

4.hive与hbase整合，把数据导入hbase

5.将数据打出到HDFS，在通过sqoop将数据导出到mysql

7.flume是干嘛的？

flume的三大组件：Sources(输入端口)，Channle(管道或传输频道)，Sink(输出端口)

还可以配合拦截器

flume负责采集数据，如日志文件，普通文件等

把数据采集到控制台，HDFS，hive，hbase等

8.设置了几个副本？

没有设置，默认为3个

查看全文

相关阅读:
maya绝招（1-20）
maya 操作自我整理（二）
maya 操作自我整理（一）
让IE6 IE7 IE8 IE9 IE10 IE11支持Bootstrap的解决方法
 SAP MM Consignment 寄售库存
 java或者jsp中修复会话标识未更新漏洞
 强大！基于拖放布局的 Twitter Bootstrap 网站生成器
 mysql 2003 10038 连接不上的解决
 STRUTS2 标签循环次数
 tomcat 启用Gzip 压缩进行优化

原文地址：https://www.cnblogs.com/dummyly/p/10037079.html